[问题] 网页爬虫问题 senso PTT批踢踢实业坊

[问题] 网页爬虫问题

楼主: senso ( ) 2018-08-08 23:40:42

大家好，小弟在用python抓网页遇到点问题
有些网页的内容是透过js宣染画出来的
所以我使用chromedriver的headless方式去抓取
抓pchome的商品清单，我可以抓到资料，
输出的商品清单.html里可看到商品
可是商品明细页却无法，只看到像是基本的base from
我有爬过momo，yahoo，博客莱都有成功，就只有pchome会这样
不晓得问题出在哪里
请大大帮忙，谢谢
附上source code
https://github.com/godanimalsenso/PyWebTtest

作者: s860134 (s860134) 2018-08-09 00:51:00

加个　sleep 等 ajax 把网页渲染完成商品明细页面资料是用　js 拉后台数据库的资料再显示上去所以你只等 html load 完直接跑　page_source 就啥都没当然要聪明一点可以加个　code 去检查　js load 完了没

楼主: senso ( ) 2018-08-09 03:42:00

没想到会是这样的问题@@我加了time.sleep(1)确实有出来了我会再去找检查js load ，谢谢

作者: b24333666 (比飞笨) 2018-08-09 07:13:00

pchom 要去看network的hxr 里面有一个文件满满的json格式

作者: coeric ( ) 2018-08-09 09:37:00

推楼上，有json

楼主: senso ( ) 2018-08-09 19:46:00

抓xhr是比较快，不过我四个站都是css selector抓指定字段

继续阅读

[问题] import失败honoYang [问题] Django admin widget问题kalapon [问题] 新手Python 一些问题rxs80087 [问题] ImportErrorcallmejohn [问题] python 学习的方向ching4562 [问题] spyder没有out跑出来@@?silverair [问题] 直方图重叠不叠加pig98520 [问题] 资料合并问题unknown [问题] Google登入aa12twtwaa [问题] vscode lost sys.stdinaa4s5d6z7x8c