各位前辈好,最近也在尝试爬pchome,虽然知道是javascript,但还是不太能解决
爬文后很幸运挖到这篇 也照了这不是ptt大的code测试
推 Thisisnotptt: 刚刚试了一下,应该是JS的问题,所以我改用selenium 04/11 13:38
→ Thisisnotptt: 之后就搞定了 http://codepad.org/QeZAV5HO 04/11 13:39
但同样的code 执行好多次才能成功一次 是我的电脑业障重吗OAQQ
其余的失败也没什么讯息 就是只抓回空壳 (我猜应该是没有成功执行js?)
我目前要做的 是已经有一堆pchome网址 想要从网址爬回对应商品
发现虽然head里的meta就有了 但也不知道该如何简单的只抓回这个部分
所以总结想请问各位前辈:
1.没办法每次都抓回网页,是pchome的防范机制吗?该何解QQ
2.还是说有更简单的方法可以只抓回head那个部分,觉得抓回整个网站有点overkilled
但现在就连硬要抓整个网站回来都做不到...( ̄▽ ̄#)﹏﹏
感谢各位前辈指点迷津OTZ