之前需要爬一些网站的评论而想了一个简单的多执行绪爬虫
但是觉得方法不漂亮,想问问其他更好的想法
需求: (由于效率问题,需要 multithreading)
将许多网站连结(存在一个 List 里面)里面的评论全部爬下来
每个网站存成一个档案,例如:txt
评论中会有连结连到其他文章,连文章一并爬下来
但是需要存到这个网站的档案
ex: A 网站爬下来的资料存成 A.txt
里面有评论连到 B 文章,需将 B 文章存进 A.txt 的相对位置
(就是那个评论那里)
我之前的想法:
将 List 里面的网站做 Multithreading
用一个暂时的 List 存爬下来的资料
碰到连结在 List 里面做记录,并把连结存到另一个 List
爬完这个网站之后将存连结的 List 做 multithreading
爬回来的文章写回存资料的暂时 List
全部连结爬完之后将这个暂时 List 写到 txt
问题:
1. 假如正在爬的几个网站评论很多,内存用量可观,而且 Threads 数量会很多
较难估计 CPU 使用
2. 每个网站产生完 threads 用过即丢,感觉很浪费,想重复利用
对于上面问题想请教更好的做法
感谢各位大大