PTT
Submit
Submit
选择语言
正體中文
简体中文
PTT
Python
[问题] python 爬取pchome资料
楼主:
kobe52072200
(喂,我蜜欧啦)
2016-04-11 11:42:43
大家好 小弟最近刚开始学网络爬虫 刚好看到有老师在网络上教学 教学连结如下
http://www.largitdata.com/course/9/
由于范例影片是用淘宝举例 我就想说那改来爬Pchome 最近刚好想买电动刮胡刀
于是在Pchome首页搜寻电动刮胡刀 跑出项目后写以下的程式
import requests
import bs4 from BeautifulSoup as bs
res =
requests.get('
http://ecshweb.pchome.com.tw/search/v3.3/?q=%E9%9B%BB%E5%8B%95%E5%88%AE%E9%AC%8D%E5%88%80')
soup = bs(res.text, "html.parser")
print soup
想说先看一下soup打印出来后有没有包含网业上的品项资讯 但却没有
之后的步骤也不知道怎么进行下去了
上述的网址是在搜寻页面按右键→检查→Network→类型选择Doc 得到的url
不知道有没有版友爬过Pchome 可以教教小弟吗 谢谢大家~~
作者:
Yshuan
(倚絃)
2016-04-11 13:34:00
我看是在<dd id="ItemContainer">里面 捞不到吗?
作者:
Thisisnotptt
(这不是PTT)
2016-04-11 13:38:00
刚刚试了一下,应该是JS的问题,所以我改用selenium之后就搞定了
http://codepad.org/QeZAV5HO
pip 可以直接装,然后抓这个放入在同目录:
http://phantomjs.org/download.html
楼主:
kobe52072200
(喂,我蜜欧啦)
2016-04-11 16:41:00
谢谢T大回答 我现在出现错误讯息'phantomjs' executable needs to be in PATH我不知道要把载下来的selenium丢到哪里 ~再麻烦T大了 谢谢 ~说错是phantomjs~
作者:
Thisisnotptt
(这不是PTT)
2016-04-11 20:51:00
耶? 解压缩之后会是一个资料夹对吧? 里面有bin资料夹,里面有phantomjs。 把路径改成他就可以了,或是把这个phantomjs抓出来放在同木录下他就会找得到了应该有这个就搞得定了。
继续阅读
terminal上列出目录内所有档案选取做input
proud
[问题] pyinotify 错误求解
girl5566
Re: [问题] 关于使用for循环挖掘资料时出错-换页问题
Neisseria
[问题] 如何被网页阻挡后,过几秒重连线?
kiloxx
[问题] python存取变量
Anny19
Re: [问题]一个 递回的 return问题
micangela
[问题] 随机排序
shuian88
[问题] 空白消除不掉?
kiloxx
Re: [问题] 网页分析之print问题
MOONY135
Re: [问题] 网页分析之print问题
MOONY135
Links
booklink
Contact Us: admin [ a t ] ucptt.com