这问题可能不是单纯和python有关
不过还是在这边问问看
最近在研究使用淘宝爬虫
不过刚开始就遇到了一点困难
http://0rz.tw/acJsC A网址
http://0rz.tw/inzfh B网址
上面两个都是淘宝的网址
当直接看原始档时两个都可以看到一个名为g_page_config
含有完整网页内容的json表格
不过当我使用urllib2.urlopen去抓的时候
A网址可以抓到g_page_config的资料
但B网址抓回来的似乎是完全不同的东西
只要是商品搜寻的页面似乎都会得到这样的结果
但我不太懂为什么A可以B却不行
这样是否代表淘宝有特别阻挡商品搜寻页面?
只能使用模拟浏览器行为的方式去把网页json都load进来后才抓?
或者有没有方式可以达到同样的目的?