板上各位强者好
最近因为故宫开放所有收藏品的图片下载
因此拿来当作第一次自学python程式写一个简易的爬虫
目前想到比较不自动的方式 -
从第一页爬到最后一页或取所有下载的连结
再用其他下载软件慢慢下载,但使用循环时,一直连不去下一页
新手程式码如下,还请大家指点迷津
import requests
from bs4 import BeautifulSoup
for _page in range(1,2,1):
res = requests.get("http://theme.npm.edu.tw/opendata/DigitImageSets.aspx?pageNo=%d"
% _page)
soup = BeautifulSoup(res.text, 'lxml')
a_target = soup.find_all('a','fancybo_xxxx fancybox.iframe')
for a in a_target:
print(a['href'],a.text)