PTT
Submit
Submit
选择语言
正體中文
简体中文
PTT
Python
[问题] 如何确保opendata抓到最新资料
楼主:
fghdfh
(fghdfh)
2020-06-30 23:49:34
各位大大好,新手在此一问
若我写个python档想去抓某个网站的opendata资料,
虽然opendata资料有更新频率(比如说一小时更新一次)
但万一该网站更新频率不是很稳定的话,比如说有时是12:05分资料才更新,
有时是12:10才更新,有时会提早 11:58就更新了。
若用排程定时去抓,比如说我设定每个小时的第五分钟(12:05分)抓取
但这样就有可能会抓到上一笔还没更新过的资料,请问大家实务上是如何解决?
感谢各路高手!
作者:
james732
(好人超)
2020-07-01 00:41:00
把你这次抓的时间记下来,下次再抓的时候做比对
作者:
max36067
(围巾喵)
2020-07-01 01:27:00
直接对照前一笔资料就好啦
作者:
TitanEric
(泰坦)
2020-07-01 09:32:00
cache上一笔的时间
作者:
mychiux413
(小邱)
2020-07-01 09:41:00
资料如果有必不重复的资讯如id就存sql,插入时重复的id忽略掉有可能新一笔跟旧一笔好死不死长一样吗?
作者:
alvinlin
(林矜业)
2020-07-01 13:20:00
p=hashlib.md5(r.text.encode('utf-8-sig')).hexdiges()用md5把hash存起来然后比较页面的md5 hash有没有变更
楼主:
fghdfh
(fghdfh)
2020-07-01 23:54:00
谢谢以上各位
继续阅读
[问题] 输出成pdf 结果打的东西变不一样了
mack
[问题] 条件扣减金额及消订单
rounders
[问题] 特征选取使用Relief 问题
ariel777
[问题] 请问爬虫 bs4的撷取方法?
neiltsang
[问题] 两个表格合并
MAGICXX
Re: [问题] 影像辨识追踪
MasterChang
[问题] 爬虫新手 座标图抓资料(解决)
joeyen0546
[问题] 爬虫下载影片 愈到权限问题
neiltsang
[问题] dataframe使用replace的疑问
jasonhsu14
[问题] 有小数点的数字关键字
ayaniji
Links
booklink
Contact Us: admin [ a t ] ucptt.com