有一个需要大量爬虫的project
目标是一个新闻网的所有新闻
假设主网址是https://abc.com
我要爬的是https://abc.com/articles/202105200001.html
时间从2000年到今年
每一天都会有编号1到9999
但实际上可能只有一千篇是有内容的
目前是用tor来慢慢一篇一篇爬避免被锁
但要整个网站爬完可以要耗费非常久的时间
在寻找更快的方法的时候看到一些所谓的“扒站软件”
似乎是可以把整个网站下载下来
不知道有没有人用过
针对这样的例子是可行的吗?
还是能请问有没有其他方法可以更快的爬虫?
(有试过multi threading,但稳定的proxies 不够, project也不给经费买QQ)
感谢!