[问题] 大量爬虫的问题 Supershero PTT批踢踢实业坊

[问题] 大量爬虫的问题

楼主: Supershero (æ‹‰æ‹‰) 2021-05-21 05:41:11

有一个需要大量爬虫的project
目标是一个新闻网的所有新闻
假设主网址是https://abc.com
我要爬的是https://abc.com/articles/202105200001.html
时间从2000年到今年
每一天都会有编号1到9999
但实际上可能只有一千篇是有内容的
目前是用tor来慢慢一篇一篇爬避免被锁
但要整个网站爬完可以要耗费非常久的时间
在寻找更快的方法的时候看到一些所谓的“扒站软件”
似乎是可以把整个网站下载下来
不知道有没有人用过
针对这样的例子是可行的吗？
还是能请问有没有其他方法可以更快的爬虫？
（有试过multi threading,但稳定的proxies 不够, project也不给经费买QQ)
感谢！

作者: x94fujo6 2021-05-21 10:26:00

假设像google搜寻结果有分页...把每一页的结果里符合的网址存起来索引完之后再抓

作者: atrisk (atrisk) 2021-05-21 20:19:00

试着把程式移植到scrapy框架上跑跑看，不清楚会回不会被锁

继续阅读

[问题] 钜亨网爬虫日期输入snakei14702 [问题] Linux打包exe，竟然超过600Mte1e1 [问题] pycharm免费版有没有auto run可以使用chin2049 [问题] 请教hdf5读取速度问题kakar0to [问题] selenium 开新分页使用threading 控制kiey [问题] linebot图片接收问题jack155861 [问题] 在目标高负载下的请求失败问题touge [问题] 使用pip检视,更新和解除安装套件(已解决)s4340392 [问题] 新手问个pandas修改问题W5566DerD1 Re: [问题] pyptt遇到的问题已询问作者但无解ddavid