[问题] 用beautifulsoup抓网页中的表格

楼主: cawaiilulu (across)   2017-08-04 03:50:07
要抓一个wiki page中的表格以计算
但是我只会作到抓下整个html码
接下来就不知道怎么作
https://en.wikipedia.org/wiki/World_Series_television_ratings
像以上这样
请问我要怎么样才能够只抓下 1984~年的收视率表格?
Television ratings by year, 1984 – present
python3 谢谢
作者: ntumath (math mad)   2017-08-04 08:30:00
bf = Beautiful(url,'html.parser')target = bf.findAll('table')[1]想做计算可以用pandas,先熟悉用bf抓contents吧
作者: coeric ( )   2017-08-04 11:14:00
楼上的汤被偷了........pandas很强,但也很鸡肋 遇到一些很乱的网页时所要的资讯尽乱塞在表格很奇怪的地方 而且还是分开的我就放弃pandas,改回归原始的美丽的汤不过,用美丽的汤,也是得突破千万难关 才有办法抵达就是同你说的 ("div", {class}:...昨天在捞统联客运的讯息时,差点没吐血........就你说的 一样是看html找标签按F12 进到开发人员模式去看
作者: ntumath (math mad)   2017-08-04 21:24:00
要是只抓这种一页的资讯,怕麻烦就用xpath或css一键复制会用到特别标注id,class这种的 通常是需要抓同个架构下差不多的内容,但是怕重新request的时候改变xpath的那种

Links booklink

Contact Us: admin [ a t ] ucptt.com