[问题] 某段程式读取太久自动跳过 loser113 PTT批踢踢实业坊

楼主: loser113 (洨大鲁蛇ㄍ) 2020-03-05 13:55:48

在爬虫抓网页执行某段抓某页的时候可能读取很久
有没有指令可以设定某一段指令若跑超过x秒自动跳过
谢谢

作者: Hsins (翔) 2020-03-05 14:28:00

import timelimit_time = time.time() + TIMEOUTif time.time() > limit_time:这作法比较简单，也可以用 theading 的 Timer不过等你爬虫复杂起来再考虑吧

作者: ddavid (谎言接线生) 2020-03-05 14:34:00

卡某种I/O包括网络的话，感觉都是thread出去比较好，上面推文第一种方法用在很多小行为其实都跑很快但累积时间很久的情况，但如果单单某个读取动作就卡很久就不是第一种方法能处理的了，这时就给他一个thread让他自己去跑吧不过代价就是复杂性变高了，有必要才用

作者: alvinlin (林矜业) 2020-03-05 14:56:00

scrapy用DOWNLOAD_TIMEOUT 设定然后用scrapy的errback去exception

作者: IAMPF (PF) 2020-03-05 16:18:00

如果是用 requests 可以 requests.get(url,timeout=30)

继续阅读