Re: [问题] python 爬取pchome资料 wsybu PTT批踢踢实业坊

Re: [问题] python 爬取pchome资料

楼主: wsybu (%小步步%) 2018-12-26 10:32:55

※ 引述《BigBank ( )》之铭言：
: 各位前辈好，最近也在尝试爬pchome，虽然知道是javascript，但还是不太能解决
: 爬文后很幸运挖到这篇也照了这不是ptt大的code测试
: 推 Thisisnotptt: 刚刚试了一下，应该是JS的问题，所以我改用selenium 04/11 13:38
: → Thisisnotptt: 之后就搞定了 http://codepad.org/QeZAV5HO 04/11 13:39
: 但同样的code 执行好多次才能成功一次是我的电脑业障重吗OAQQ
: 其余的失败也没什么讯息就是只抓回空壳 (我猜应该是没有成功执行js?)
: 我目前要做的是已经有一堆pchome网址想要从网址爬回对应商品
: 发现虽然head里的meta就有了但也不知道该如何简单的只抓回这个部分
: 所以总结想请问各位前辈：
: 1.没办法每次都抓回网页，是pchome的防范机制吗？该何解QQ
: 2.还是说有更简单的方法可以只抓回head那个部分，觉得抓回整个网站有点overkilled
: 但现在就连硬要抓整个网站回来都做不到...(￣▽￣＃)﹏﹏
: 感谢各位前辈指点迷津OTZ
想借这篇回一下..
pchome24hr页面是不是不能用 selenium + chrome(headless)了?
只要打开headless，页面都是
"目前因网络连线问题无法造访网站，正在处理中，请您耐心稍候。"
(不开headless都可以正常抓取)
不知道pchome是怎样在主机端侦测到的

楼主: wsybu (%小步步%) 2018-12-26 10:58:00

自问自答..发现ua被改成HeadlessChrome了XD

继续阅读

[问题] not in 检查list元素会失败吗？ofspring [问题] 请教爬虫bs4如何去除标签?nini200 Fw: [问卷] 台湾AI人才进修研究调查ohhahaha [问题] import requests请教vincent5425 [问题] 爬虫新手请教ptt爬虫问题xiangying [问题] vscode 变量内容查询somoskylin [问题] selenium 定位问题bewilderment [问题] 想请问有关爬虫问题rennmin84 [问题] VScode无法辨识cmdlethagi13 [问题] labelimgjasonfghx