Re: [问题] python 爬取pchome资料 BigBank PTT批踢踢实业坊

Re: [问题] python 爬取pchome资料

楼主: BigBank ( ) 2016-08-06 00:28:50

各位前辈好，最近也在尝试爬pchome，虽然知道是javascript，但还是不太能解决
爬文后很幸运挖到这篇也照了这不是ptt大的code测试
推 Thisisnotptt: 刚刚试了一下，应该是JS的问题，所以我改用selenium 04/11 13:38
→ Thisisnotptt: 之后就搞定了 http://codepad.org/QeZAV5HO 04/11 13:39
但同样的code 执行好多次才能成功一次是我的电脑业障重吗OAQQ
其余的失败也没什么讯息就是只抓回空壳 (我猜应该是没有成功执行js?)
我目前要做的是已经有一堆pchome网址想要从网址爬回对应商品
发现虽然head里的meta就有了但也不知道该如何简单的只抓回这个部分
所以总结想请问各位前辈：
1.没办法每次都抓回网页，是pchome的防范机制吗？该何解QQ
2.还是说有更简单的方法可以只抓回head那个部分，觉得抓回整个网站有点overkilled
但现在就连硬要抓整个网站回来都做不到...(￣▽￣＃)﹏﹏
感谢各位前辈指点迷津OTZ

作者: Thisisnotptt (这不是PTT) 2015-04-11 13:38:00

刚刚试了一下，应该是JS的问题，所以我改用selenium之后就搞定了 http://codepad.org/QeZAV5HO

作者: ripple0129 (perry tsai) 2016-08-06 05:00:00

其实就很单纯的观察封包伪装成浏览器送封包到server

作者: Thisisnotptt (这不是PTT) 2016-08-06 20:46:00

假如是偶尔成功那可能是要加入延迟让网页跑完让javascript的内容被加载之后才抓得到因为se是个浏览器要给他点时间处理试试看加这个 http://tinyurl.com/he7h8aa 让他完全加载之后再进行抓取假如要摆脱 se 可以用post request的方式直接抓取内容但是我之前对pchome采post/request的方式都一不太成功 se 搞起来比较方便就是了缺点就是慢跟肥刚刚试了一下 request 的方式 OK了不晓得之前是什么问题卡住总之应该还行一样要加点delay会比较稳http://codepad.org/25lxbLvn

继续阅读

[问题] dict 在循环里 update的问题ek0519 [问题] 新手爬虫抓资料blueandy Re: [问题] 新手解LeetCode:Swap Nodes in Pairss06yji3 [问题] 征求专业接案者 - Python GUI Appl.SophieFluid [问题] 变量资料型态as840507 [问题] 新手解LeetCode:Swap Nodes in Pairsiwantstronge Re: [问题] OpenCV addweighted() ErrorPHONm [问题] OpenCV addweighted() ErrorPHONm [问题] 字串中符号处理问题NikonD800E [问题] sqlite3 的效能很差吗？aaaba