各位先进好,我有数千个TXT档,每个档案约3、4百MB大小,档案内容就一行是一个句子
,然后我手头有10个关键字,我要找数千个TXT档里有哪些句子有提到关键字。
我目前作法是一个档案一个档案一行一行去跟关键字比对,有对应到的就抛出来。
因为后续还会有其他关键字,又要一个一个档案去爬,太耗时间,所以想请各位先进赐个
关键字,有没有可以改进效率的方法或套件可以推荐,感谢。
6/11-
后来想试试multiprocess的概念,我后来改写的程式码:
https://github.com/ashkayle24/KeyWord_hit/blob/master/keyword_hit-test.py
不知这样的用法对不对,cpu一直在90%以上在跑,可否有先进给个指导...