[问题] 如何确保opendata抓到最新资料 fghdfh PTT批踢踢实业坊

[问题] 如何确保opendata抓到最新资料

楼主: fghdfh (fghdfh) 2020-06-30 23:49:34

各位大大好，新手在此一问
若我写个python档想去抓某个网站的opendata资料，
虽然opendata资料有更新频率(比如说一小时更新一次)
但万一该网站更新频率不是很稳定的话，比如说有时是12:05分资料才更新，
有时是12:10才更新，有时会提早 11:58就更新了。
若用排程定时去抓，比如说我设定每个小时的第五分钟(12:05分)抓取
但这样就有可能会抓到上一笔还没更新过的资料，请问大家实务上是如何解决?
感谢各路高手!

作者: james732 (好人超) 2020-07-01 00:41:00

把你这次抓的时间记下来，下次再抓的时候做比对

作者: max36067 (围巾喵) 2020-07-01 01:27:00

直接对照前一笔资料就好啦

作者: TitanEric (泰坦) 2020-07-01 09:32:00

cache上一笔的时间

作者: mychiux413 (小邱) 2020-07-01 09:41:00

资料如果有必不重复的资讯如id就存sql，插入时重复的id忽略掉有可能新一笔跟旧一笔好死不死长一样吗？

作者: alvinlin (林矜业) 2020-07-01 13:20:00

p=hashlib.md5(r.text.encode('utf-8-sig')).hexdiges()用md5把hash存起来然后比较页面的md5 hash有没有变更

楼主: fghdfh (fghdfh) 2020-07-01 23:54:00

谢谢以上各位

继续阅读

[问题] 输出成pdf 结果打的东西变不一样了mack [问题] 条件扣减金额及消订单rounders [问题] 特征选取使用Relief 问题ariel777 [问题] 请问爬虫 bs4的撷取方法?neiltsang [问题] 两个表格合并MAGICXX Re: [问题] 影像辨识追踪MasterChang [问题] 爬虫新手座标图抓资料(解决)joeyen0546 [问题] 爬虫下载影片愈到权限问题neiltsang [问题] dataframe使用replace的疑问jasonhsu14 [问题] 有小数点的数字关键字ayaniji