[问题] python淘宝爬虫 dondondie PTT批踢踢实业坊

[问题] python淘宝爬虫

楼主: dondondie (东东纳命来) 2015-02-15 16:56:37

这问题可能不是单纯和python有关
不过还是在这边问问看
最近在研究使用淘宝爬虫
不过刚开始就遇到了一点困难
http://0rz.tw/acJsC A网址
http://0rz.tw/inzfh B网址
上面两个都是淘宝的网址
当直接看原始档时两个都可以看到一个名为g_page_config
含有完整网页内容的json表格
不过当我使用urllib2.urlopen去抓的时候
A网址可以抓到g_page_config的资料
但B网址抓回来的似乎是完全不同的东西
只要是商品搜寻的页面似乎都会得到这样的结果
但我不太懂为什么A可以B却不行
这样是否代表淘宝有特别阻挡商品搜寻页面?
只能使用模拟浏览器行为的方式去把网页json都load进来后才抓?
或者有没有方式可以达到同样的目的?

作者: jimmytzeng (jimmytseng) 2015-02-20 14:18:00

他们有用http header的user-agent挡?

楼主: dondondie (东东纳命来) 2015-02-23 15:14:00

我是有带user-agent下去抓啦但不确定参数够不够完整

作者: starengine (EricWei) 2015-02-24 13:38:00

有些资料可能用javascript产生的，要模拟浏览器才可以

作者: ianleu (小英) 2015-02-26 10:00:00

http://www.cnblogs.com/asmblog/archive/2013/05/07/3063

作者: eight0 (æ¬¸XD) 2015-02-27 11:06:00

我没看到 g_page_config

继续阅读

[问题] 关于tkinter的RadioButtonwowlin Re: [问题] c调用py产生的exe有办法包入py档吗?LiloHuang [问题] ConfigObjErrorsteve2003121 [问题] c调用py产生的exe有办法包入py档吗?opengood5566 [问题] 新手问题Senlong [问题] template 问题gn00618777 Re: [问题]scrapy如何把抓到的资料存成这样格式? ccwang002 [问题] python 范例gn00618777 [问题] pyDev设定执行的问题 eclipseverdd [问题] twisted 如何知道资料收完？zha0