[讨论] 新手请教 爬虫抛出资料比对

楼主: cloverlover (cloverlover)   2021-02-11 09:06:37
概念描述 :
定时爬ptt八卦板,收寻特定字符后抛出line讯息
问题:
若定时爬出的资料为相同的,要如何建立确认机制?等到有不同的再抛出。
目前作法是将数据存成list,再抛出
但第二次跑时不知道如何前后资料比对
先谢谢各位指导
补充程式概述:
while True :
def getdata(url):
return 数据
Y = [ ]
Y. append(数据)
Line bot 抛出 Y
我想让抛出的Y有办法做前后比对,有差别后再抛line bot
主要卡在Y再跑第二次时会覆蓋第一次就无法比对
作者: supremebboy (1234)   2021-02-11 09:38:00
搜寻
作者: penut85420 (PenutGGorz)   2021-02-11 10:23:00
考虑看看hash
作者: aidansky0989 (alta)   2021-02-11 11:02:00
用set存,当set长度增加时跳出通知
作者: TitanEric (泰坦)   2021-02-11 12:36:00
hash checksum用另一个set存之前抓下来的文件checksum 存之前先用in set判断
作者: vi000246 (Vi)   2021-02-13 17:45:00
我会直接抓编辑纪录的时间 这样最省效能

Links booklink

Contact Us: admin [ a t ] ucptt.com