[问题]初学者爬虫截取超连结问题 idleryan PTT批踢踢实业坊

[问题]初学者爬虫截取超连结问题

楼主: idleryan (QQ) 2017-07-17 16:22:07

板上各位强者好
最近因为故宫开放所有收藏品的图片下载
因此拿来当作第一次自学python程式写一个简易的爬虫
目前想到比较不自动的方式 -
从第一页爬到最后一页或取所有下载的连结
再用其他下载软件慢慢下载,但使用循环时,一直连不去下一页
新手程式码如下,还请大家指点迷津
import requests
from bs4 import BeautifulSoup
for _page in range(1,2,1):
res = requests.get("http://theme.npm.edu.tw/opendata/DigitImageSets.aspx?pageNo=%d"
% _page)
soup = BeautifulSoup(res.text, 'lxml')
a_target = soup.find_all('a','fancybo_xxxx fancybox.iframe')
for a in a_target:
print(a['href'],a.text)

作者: Yshuan (倚絃) 2017-07-17 16:40:00

range(1,2,1) 只有 list: [1] ...

楼主: idleryan (QQ) 2017-07-17 16:43:00

range(1,2,1)不是指start at 1, end at 2, step = 1还是我打错了??

作者: Nieto (HaoChuan) 2017-07-17 16:49:00

range(1,3,1)才是从1开始, 到2结束

楼主: idleryan (QQ) 2017-07-17 16:49:00

我了解了...2结束,所以不会进loop ....

作者: coeric ( ) 2017-07-18 01:29:00

用while 然后照staus去决定循环的跳出即可不必管几页

继续阅读

[问题] 爬取google所有商家资料ariel18 [问题] ＭＡＣ默认使用python3gokratio [问题] 关于list的append方法LessonWang [问题] 资料结构：使用Python这本书的评价tcssh611503 [问题] 关于python版本设定owem0410 [问题]用python预测片段文字是哪种语言jacobcan118 [问题] ckip-client模组使用问题thomasflee [问题] 计算字串中某个字符出现的个数LessonWang [分享] 肥米输入法shadowjohn [问题] print简体编码问题coolching