※ 引述《BigBank ( )》之铭言:
: 各位前辈好,最近也在尝试爬pchome,虽然知道是javascript,但还是不太能解决
: 爬文后很幸运挖到这篇 也照了这不是ptt大的code测试
: 推 Thisisnotptt: 刚刚试了一下,应该是JS的问题,所以我改用selenium 04/11 13:38
: → Thisisnotptt: 之后就搞定了 http://codepad.org/QeZAV5HO 04/11 13:39
: 但同样的code 执行好多次才能成功一次 是我的电脑业障重吗OAQQ
: 其余的失败也没什么讯息 就是只抓回空壳 (我猜应该是没有成功执行js?)
: 我目前要做的 是已经有一堆pchome网址 想要从网址爬回对应商品
: 发现虽然head里的meta就有了 但也不知道该如何简单的只抓回这个部分
: 所以总结想请问各位前辈:
: 1.没办法每次都抓回网页,是pchome的防范机制吗?该何解QQ
: 2.还是说有更简单的方法可以只抓回head那个部分,觉得抓回整个网站有点overkilled
: 但现在就连硬要抓整个网站回来都做不到...( ̄▽ ̄#)﹏﹏
: 感谢各位前辈指点迷津OTZ
想借这篇回一下..
pchome24hr页面是不是不能用 selenium + chrome(headless)了?
只要打开headless,页面都是
"目前因网络连线问题无法造访网站,正在处理中,请您耐心稍候。"
(不开headless都可以正常抓取)
不知道pchome是怎样在主机端侦测到的