[问题] ig爬虫问题 yoz4ni PTT批踢踢实业坊

[问题] ig爬虫问题

楼主: yoz4ni (yoooooz) 2020-06-05 23:43:42

请问一下
爬了好几页都正常，但在请求时突然会蹦出这个错误(正确的话是会回传一大串 jasn 的格式)
js_data : {'message': 'rate limited', 'status': 'fail'}
但是我把网址贴到浏览器上面是正常的，程式里执行却读不出来
请问该如何是好?
困扰我好久了

作者: max36067 (围巾喵) 2020-06-06 00:24:00

你有加header吗？可能会挡爬虫

作者: alvinlin (林矜业) 2020-06-06 01:20:00

建议用API。facebook的或旧的instgramAPI。但旧的很快就不能用了https://tinyurl.com/yb755osg

作者: ddavid (谎言接线生) 2020-06-06 07:38:00

message都说rate limited了啊，你爬的速度太快了，他限制你不可以爬那么快，遇到这种情况就是sleep一段时间继续sleep要多久就看它的限制，或记录一下次数时间来估计一下他的速限来加以调整

作者: vi000246 (Vi) 2020-06-06 09:59:00

http://t.ly/9RaO

楼主: yoz4ni (yoooooz) 2020-06-06 20:13:00

我有加 header，加了会被挡住???我是没用 API 啦，自己写出来，用 API 会比较好吗?sleep 我会再去看一下~

作者: ddavid (谎言接线生) 2020-06-07 00:50:00

原Po，反正就是速限问题，不管你用哪个方法，看起来基本上就是你同一个来源冲太快它就是会挡你sleep就只是休息一段时间不抓而已，没啥特别的就上面连结来看，你一小时只能call 200次，所以如果你call200次只花了5分钟，接下来你就得sleep(3300)把剩下的55分钟休息掉，不然同一个程式来源怎么试都是被挡实作上也不用算这么精确，反正抓到message跟你说上限到了，程式就sleep个10分钟再起来重抓，还是限就再sleep，以上loop就可以自动搞定了

作者: vi000246 (Vi) 2020-06-07 16:26:00

你可以测他是怎么挡的想办法绕过

楼主: yoz4ni (yoooooz) 2020-06-08 01:02:00

好的感谢各位我后来用 sleep 的方式绕过的话可能还要在去研究遗下

作者: salmon12706 (Ellen) 2020-06-29 16:17:00

工研院人工智能课程推荐https://reurl.cc/4RDRaK

继续阅读

[问题] 关键字条件ayaniji [问题] 新手问题，定义函数的问题kslman [问题] ndarray 写入 dataframectr1 [问题] 想问如何对爬到的网页送出form submitchin2049 [问题] Pandas一栏变多栏liquidbox [问题] matplotlib的savefig问题nicha115 Re: [问题] Numpy shape问题skyconquer [问题] Numpy shape问题s90104123 [问题] 两个接口资料传输显示asahua Re: [问题] 新手学习Python的开发环境alvinlin