Re: [问题]我写的爬虫只会爬到第一个符合条件的 Seudo PTT批踢踢实业坊

Re: [问题]我写的爬虫只会爬到第一个符合条件的

楼主: Seudo (进击的三笠) 2014-12-20 18:15:28

※ 引述《elmo56 (小树芽)》之铭言：
: 大家好
: 我的问题主要是在爬资料的时候
: 设定好要抓的tag后只会抓第一笔
: pagelink=url.strip()
: request_get=requests.get(pagelink)
: soup_post=BeautifulSoup(request_get.text.encode('utf-8'))
: data = h.unescape(soup_post.find('td',{'itemprop':'actor'}).text) +',' +
: h.unescape(soup_post.find('td',{'class':'character'}).text)
: 要抓的页面中符合这个tag的有非常多笔
: 但只会抓到最上面的第一笔
: 就跳出
: 接下来要怎么写呢
: 谢谢大家
我猜你是要爬imdb
要抓多笔资料可以用findAll
先抓上一层tr 再抓演员跟角色tag
data = [ h.unescape(case.find('td',{'itemprop':'actor'}).text) +',' +
h.unescape(case.find('td',{'class':'character'}).text)
for case in soup_post.find('table',{'class':'cast_list'}).findAll('tr')]

作者: kobenein (哈哈哈) 2014-12-23 00:31:00

如果是imdb 网络上很多现成的api

继续阅读

[问题]我写的爬虫只会爬到第一个符合条件的elmo56 [问题]scrapy如何将item的资料成对的储存起来? allen511081 Re: [问题] function 的默认值Seudo [问题] function 的默认值ql4au04 [闲聊] Mochichangyuheng [问题] 透过 Python 即时更新 Excellargesperm Re: [问题] constructorsean72 [问题] constructorsean72 [问题] JSON该如何架构kobenein [问题] opencv Couldn't read movie filediesnow