[问题] 在不同csv档管理重复资料的方法

楼主: leog123456 (N/A)   2022-06-18 08:31:05
Hi 大家好 想问一个观念题
我有一个其他程式每天会固定输出一个固定格式的csv到固定的资料夹
我目前已经实现用dataframe把当日新的csv内重复的资料删除并保留最新的 并将每天处
理过的csv
另存到其他资料夹并自动上传到云端
ex:
人名,穿着,时间
小明,黄色衣服,17:50 6/18
小明,红色衣服,18:50 6/18
根据同样的人名小明 只保留最新时间的资料的小明红色衣服资料 删除旧的小明黄色衣服
的资料
但我现在遇到的问题是如果有跨csv的重复人名资料 ex小明可能会出现在前天6/16的跟今
天6/18的csv 我要删除旧的重复资料就会有难度 请问有没有比较好的方法来去做管理?
for loop把所有csv read到同一个df感觉没有有点不切实际?因为我有非常多csv档
谢谢
作者: celestialgod (天)   2022-06-18 08:39:00
https://tinyurl.com/2p82xp72最好的方式是用数据库存资料
作者: lycantrope (阿宽)   2022-06-18 09:33:00
df.groupby("人名").sort_values(by="时间").last(1)记错groupby没有sort_valuessort跟groupby对调就可以了
作者: celestialgod (天)   2022-06-18 16:13:00
建议直接把csv全部存进去sqlite 处理就好 这样比较简单
作者: longlongint (华哥尔)   2022-06-19 03:07:00
建索引啊 key 出现在哪些档案然后你会发现“存多个csv”这个性质你要思考一下建议数据库啦 但你又下了一个有矛盾的强大限制
作者: bills1987 (土ㄅ)   2022-06-20 11:04:00
DB建Pk by 日期&其他字段

Links booklink

Contact Us: admin [ a t ] ucptt.com