[问题] ig爬虫问题

楼主: yoz4ni (yoooooz)   2020-06-05 23:43:42
请问一下
爬了好几页都正常,但在请求时突然会蹦出这个错误(正确的话是会回传一大串 jasn 的格式)
js_data : {'message': 'rate limited', 'status': 'fail'}
但是我把网址贴到浏览器上面是正常的,程式里执行却读不出来
请问该如何是好?
困扰我好久了
作者: max36067 (围巾喵)   2020-06-06 00:24:00
你有加header吗? 可能会挡爬虫
作者: alvinlin (林矜业)   2020-06-06 01:20:00
建议用API。facebook的或旧的instgramAPI。但旧的很快就不能用了https://tinyurl.com/yb755osg
作者: ddavid (谎言接线生)   2020-06-06 07:38:00
message都说rate limited了啊,你爬的速度太快了,他限制你不可以爬那么快,遇到这种情况就是sleep一段时间继续sleep要多久就看它的限制,或记录一下次数时间来估计一下他的速限来加以调整
作者: vi000246 (Vi)   2020-06-06 09:59:00
楼主: yoz4ni (yoooooz)   2020-06-06 20:13:00
我有加 header,加了会被挡住???我是没用 API 啦,自己写出来,用 API 会比较好吗?sleep 我会再去看一下~
作者: ddavid (谎言接线生)   2020-06-07 00:50:00
原Po,反正就是速限问题,不管你用哪个方法,看起来基本上就是你同一个来源冲太快它就是会挡你sleep就只是休息一段时间不抓而已,没啥特别的就上面连结来看,你一小时只能call 200次,所以如果你call200次只花了5分钟,接下来你就得sleep(3300)把剩下的55分钟休息掉,不然同一个程式来源怎么试都是被挡实作上也不用算这么精确,反正抓到message跟你说上限到了,程式就sleep个10分钟再起来重抓,还是限就再sleep,以上loop就可以自动搞定了
作者: vi000246 (Vi)   2020-06-07 16:26:00
你可以测他是怎么挡的 想办法绕过
楼主: yoz4ni (yoooooz)   2020-06-08 01:02:00
好的 感谢各位 我后来用 sleep 的方式绕过的话可能还要在去研究遗下
作者: salmon12706 (Ellen)   2020-06-29 16:17:00
工研院人工智能课程推荐https://reurl.cc/4RDRaK

Links booklink

Contact Us: admin [ a t ] ucptt.com