[问题] 大量爬虫的问题

楼主: Supershero (拉拉)   2021-05-21 05:41:11
有一个需要大量爬虫的project
目标是一个新闻网的所有新闻
假设主网址是https://abc.com
我要爬的是https://abc.com/articles/202105200001.html
时间从2000年到今年
每一天都会有编号1到9999
但实际上可能只有一千篇是有内容的
目前是用tor来慢慢一篇一篇爬避免被锁
但要整个网站爬完可以要耗费非常久的时间
在寻找更快的方法的时候看到一些所谓的“扒站软件”
似乎是可以把整个网站下载下来
不知道有没有人用过
针对这样的例子是可行的吗?
还是能请问有没有其他方法可以更快的爬虫?
(有试过multi threading,但稳定的proxies 不够, project也不给经费买QQ)
感谢!
作者: x94fujo6   2021-05-21 10:26:00
假设像google搜寻结果有分页...把每一页的结果里符合的网址存起来 索引完之后再抓
作者: atrisk (atrisk)   2021-05-21 20:19:00
试着把程式移植到scrapy框架上跑跑看,不清楚会回不会被锁

Links booklink

Contact Us: admin [ a t ] ucptt.com