PTT
Submit
Submit
选择语言
正體中文
简体中文
PTT
Python
[问题] ig爬虫问题
楼主:
yoz4ni
(yoooooz)
2020-06-05 23:43:42
请问一下
爬了好几页都正常,但在请求时突然会蹦出这个错误(正确的话是会回传一大串 jasn 的格式)
js_data : {'message': 'rate limited', 'status': 'fail'}
但是我把网址贴到浏览器上面是正常的,程式里执行却读不出来
请问该如何是好?
困扰我好久了
作者:
max36067
(围巾喵)
2020-06-06 00:24:00
你有加header吗? 可能会挡爬虫
作者:
alvinlin
(林矜业)
2020-06-06 01:20:00
建议用API。facebook的或旧的instgramAPI。但旧的很快就不能用了
https://tinyurl.com/yb755osg
作者:
ddavid
(谎言接线生)
2020-06-06 07:38:00
message都说rate limited了啊,你爬的速度太快了,他限制你不可以爬那么快,遇到这种情况就是sleep一段时间继续sleep要多久就看它的限制,或记录一下次数时间来估计一下他的速限来加以调整
作者:
vi000246
(Vi)
2020-06-06 09:59:00
http://t.ly/9RaO
楼主:
yoz4ni
(yoooooz)
2020-06-06 20:13:00
我有加 header,加了会被挡住???我是没用 API 啦,自己写出来,用 API 会比较好吗?sleep 我会再去看一下~
作者:
ddavid
(谎言接线生)
2020-06-07 00:50:00
原Po,反正就是速限问题,不管你用哪个方法,看起来基本上就是你同一个来源冲太快它就是会挡你sleep就只是休息一段时间不抓而已,没啥特别的就上面连结来看,你一小时只能call 200次,所以如果你call200次只花了5分钟,接下来你就得sleep(3300)把剩下的55分钟休息掉,不然同一个程式来源怎么试都是被挡实作上也不用算这么精确,反正抓到message跟你说上限到了,程式就sleep个10分钟再起来重抓,还是限就再sleep,以上loop就可以自动搞定了
作者:
vi000246
(Vi)
2020-06-07 16:26:00
你可以测他是怎么挡的 想办法绕过
楼主:
yoz4ni
(yoooooz)
2020-06-08 01:02:00
好的 感谢各位 我后来用 sleep 的方式绕过的话可能还要在去研究遗下
作者:
salmon12706
(Ellen)
2020-06-29 16:17:00
工研院人工智能课程推荐
https://reurl.cc/4RDRaK
继续阅读
[问题] 关键字条件
ayaniji
[问题] 新手问题,定义函数的问题
kslman
[问题] ndarray 写入 dataframe
ctr1
[问题] 想问如何对爬到的网页送出form submit
chin2049
[问题] Pandas一栏变多栏
liquidbox
[问题] matplotlib的savefig问题
nicha115
Re: [问题] Numpy shape问题
skyconquer
[问题] Numpy shape问题
s90104123
[问题] 两个接口资料传输显示
asahua
Re: [问题] 新手学习Python的开发环境
alvinlin
Links
booklink
Contact Us: admin [ a t ] ucptt.com