[问题] 爬虫问题

楼主: Mutibil (nujabes)   2017-11-27 14:56:18
用beautifulsoup想爬steam 上对游戏的关键字评论
网址如下
http://steamcommunity.com/games/dota2/announcements/detail/1449457773770927103
comment 一页十笔,在爬的时候只能抓取得到第一页的内容
第二页的评论以后不知从何爬起,不是很了解资料放在哪
另外
这部分有推荐用书可以查吗
感觉不知道网页怎么写,要爬资料问题一堆
又毫无头绪....
谢谢
作者: ckc1ark (伪物)   2017-11-27 15:03:00
从developer panel可以看ajax url怎么下他是包在json的comment_html字段
楼主: Mutibil (nujabes)   2017-11-27 15:06:00
又麻烦你了orz 一堆报告要爬虫分析...
作者: ckc1ark (伪物)   2017-11-27 15:11:00
看起来没有特别检查 https://tinyurl.com/y8kbxrar改start就可以捞别页了
作者: vi000246 (Vi)   2017-11-27 17:04:00
用F12看Netwrok页签 看翻页时会执行的request
作者: s960405s (记羽)   2017-11-28 13:43:00
用selenium吧
楼主: Mutibil (nujabes)   2017-11-28 13:48:00
因为觉得有些笔数很大 selenium会慢了些

Links booklink

Contact Us: admin [ a t ] ucptt.com