[问题] 如何确保opendata抓到最新资料

楼主: fghdfh (fghdfh)   2020-06-30 23:49:34
各位大大好,新手在此一问
若我写个python档想去抓某个网站的opendata资料,
虽然opendata资料有更新频率(比如说一小时更新一次)
但万一该网站更新频率不是很稳定的话,比如说有时是12:05分资料才更新,
有时是12:10才更新,有时会提早 11:58就更新了。
若用排程定时去抓,比如说我设定每个小时的第五分钟(12:05分)抓取
但这样就有可能会抓到上一笔还没更新过的资料,请问大家实务上是如何解决?
感谢各路高手!
作者: james732 (好人超)   2020-07-01 00:41:00
把你这次抓的时间记下来,下次再抓的时候做比对
作者: max36067 (围巾喵)   2020-07-01 01:27:00
直接对照前一笔资料就好啦
作者: TitanEric (泰坦)   2020-07-01 09:32:00
cache上一笔的时间
作者: mychiux413 (小邱)   2020-07-01 09:41:00
资料如果有必不重复的资讯如id就存sql,插入时重复的id忽略掉有可能新一笔跟旧一笔好死不死长一样吗?
作者: alvinlin (林矜业)   2020-07-01 13:20:00
p=hashlib.md5(r.text.encode('utf-8-sig')).hexdiges()用md5把hash存起来然后比较页面的md5 hash有没有变更
楼主: fghdfh (fghdfh)   2020-07-01 23:54:00
谢谢以上各位

Links booklink

Contact Us: admin [ a t ] ucptt.com