[问题] 抓股票数据，用proxy本来正常，后来失败 Alexis PTT批踢踢实业坊

[问题] 抓股票数据，用proxy本来正常，后来失败

楼主: Alexis (阿铨) 2018-01-29 00:29:44

Python & 网络新手请教
我尝试想要透过http://www.twse.com.tw/exchangeReport/STOCK_DAY
将所有股票的历史数据抓下来存到数据库
但多下几次requests.get就会被挡掉
于是我改透过10几个proxy去轮流抓
晚餐前正常，但后来却抓不到资料
proxies = {"http": lProxyList[proxyIndex]}
r = requests.get(TWSE_BASE_URL, params=params, headers=headers,
proxies=proxies, timeout=5)
print(r.status_code) => 印出 200 正常
print(r.text) => 本来可以，后来都印 {"stat":"很抱歉，没有符合条件的资料!"}
刚试过如果不用proxy就正常，{"stat":"OK","date":"20171201","title":"
有带proxy就会抓到{"stat":"很抱歉，没有符合条件的资料!"}
换过不同国家的proxy都一样
用了proxy证交所网页还有办法挡掉吗？
请问有人知道这是什么原因吗？或可以如何debug？
另一个问题：
我这样抓10年内的历史数据，觉得还蛮耗时间的
请问有比较快速的建议吗？

作者: vi000246 (Vi) 2018-01-29 00:48:00

你可以试试挂国内的proxy 可能是国外的被ban了

作者: galeondx 2018-03-06 04:35:00

https://goo.gl/MKaCK6

继续阅读

[问题] ndarray object 请教znmkhxrw [问题] 关于selenium 定位 ::before ::after元素tas72732002 [心得] 终于把蔡XX网站的影片爬下来了~心得分享~jamesxxx1997 [问题] 爬虫问题boran0903 [问题] 完全新手如何学爬虫、资料整理与分析alubasteve [问题] 在scrapy shell中，尝试传递cookie失败jamesxxx1997 [问题] 卦板用request取得之原始码不合DaKyu [问题] 在windows下获得disk的已经使用时间terryone [问题] Python与netsnmp取得网络设备的资料stanley2k Re: [问题] django + nginx + 2 domainnameuranusjr