[问题] python淘宝爬虫

楼主: dondondie (东东纳命来)   2015-02-15 16:56:37
这问题可能不是单纯和python有关
不过还是在这边问问看
最近在研究使用淘宝爬虫
不过刚开始就遇到了一点困难
http://0rz.tw/acJsC A网址
http://0rz.tw/inzfh B网址
上面两个都是淘宝的网址
当直接看原始档时两个都可以看到一个名为g_page_config
含有完整网页内容的json表格
不过当我使用urllib2.urlopen去抓的时候
A网址可以抓到g_page_config的资料
但B网址抓回来的似乎是完全不同的东西
只要是商品搜寻的页面似乎都会得到这样的结果
但我不太懂为什么A可以B却不行
这样是否代表淘宝有特别阻挡商品搜寻页面?
只能使用模拟浏览器行为的方式去把网页json都load进来后才抓?
或者有没有方式可以达到同样的目的?
作者: jimmytzeng (jimmytseng)   2015-02-20 14:18:00
他们有用http header的user-agent挡?
楼主: dondondie (东东纳命来)   2015-02-23 15:14:00
我是有带user-agent下去抓啦 但不确定参数够不够完整
作者: starengine (EricWei)   2015-02-24 13:38:00
有些资料可能用javascript产生的,要模拟浏览器才可以
作者: ianleu (小英)   2015-02-26 10:00:00
作者: eight0 (欸XD)   2015-02-27 11:06:00
我没看到 g_page_config

Links booklink

Contact Us: admin [ a t ] ucptt.com