[问题] 网页爬虫问题

楼主: senso ( )   2018-08-08 23:40:42
大家好,小弟在用python抓网页遇到点问题
有些网页的内容是透过js宣染画出来的
所以我使用chromedriver的headless方式去抓取
抓pchome的商品清单,我可以抓到资料,
输出的商品清单.html里可看到商品
可是商品明细页却无法,只看到像是基本的base from
我有爬过momo,yahoo,博客莱都有成功,就只有pchome会这样
不晓得问题出在哪里
请大大帮忙,谢谢
附上source code
https://github.com/godanimalsenso/PyWebTtest
作者: s860134 (s860134)   2018-08-09 00:51:00
加个 sleep 等 ajax 把网页渲染完成商品明细页面资料是用 js 拉后台数据库的资料再显示上去所以你只等 html load 完直接跑 page_source 就啥都没当然要聪明一点可以加个 code 去检查 js load 完了没
楼主: senso ( )   2018-08-09 03:42:00
没想到会是这样的问题@@我加了time.sleep(1)确实有出来了我会再去找检查js load ,谢谢
作者: b24333666 (比飞笨)   2018-08-09 07:13:00
pchom 要去看network的hxr 里面有一个文件满满的json格式
作者: coeric ( )   2018-08-09 09:37:00
推楼上,有json
楼主: senso ( )   2018-08-09 19:46:00
抓xhr是比较快,不过我四个站都是css selector抓指定字段

Links booklink

Contact Us: admin [ a t ] ucptt.com