[问题] 在不同csv档管理重复资料的方法 leog123456 PTT批踢踢实业坊

[问题] 在不同csv档管理重复资料的方法

楼主: leog123456 (N/A) 2022-06-18 08:31:05

Hi 大家好想问一个观念题
我有一个其他程式每天会固定输出一个固定格式的csv到固定的资料夹
我目前已经实现用dataframe把当日新的csv内重复的资料删除并保留最新的并将每天处
理过的csv
另存到其他资料夹并自动上传到云端
ex：
人名,穿着,时间
小明,黄色衣服,17:50 6/18
小明,红色衣服,18:50 6/18
根据同样的人名小明只保留最新时间的资料的小明红色衣服资料删除旧的小明黄色衣服
的资料
但我现在遇到的问题是如果有跨csv的重复人名资料 ex小明可能会出现在前天6/16的跟今
天6/18的csv 我要删除旧的重复资料就会有难度请问有没有比较好的方法来去做管理？
for loop把所有csv read到同一个df感觉没有有点不切实际？因为我有非常多csv档
谢谢

作者: celestialgod (å¤©) 2022-06-18 08:39:00

https://tinyurl.com/2p82xp72最好的方式是用数据库存资料

作者: lycantrope (阿宽) 2022-06-18 09:33:00

df.groupby("人名").sort_values(by="时间").last(1)记错groupby没有sort_valuessort跟groupby对调就可以了

作者: celestialgod (å¤©) 2022-06-18 16:13:00

建议直接把csv全部存进去sqlite 处理就好这样比较简单

作者: longlongint (华哥尔) 2022-06-19 03:07:00

建索引啊 key 出现在哪些档案然后你会发现“存多个csv”这个性质你要思考一下建议数据库啦但你又下了一个有矛盾的强大限制

作者: bills1987 (土ㄅ) 2022-06-20 11:04:00

DB建Pk by 日期&其他字段

继续阅读

[问题]anaconda navigator视窗，无法安装RStudiobridgepons [问题] 不太确定是哪里出问题，关于索引方面barusu [问题] 如何传logger名称到其他档案?hirofumisyo [问题] 无法封装成exe?euser1777 [问题] 没有卷动条的网页要怎么用selenium卷动haha168866 [问题] colab 下载档案UBL [问题] List 资料排序?euser1777 [问题] 找两组座标的关联性或系数yarfa [问题] 能不能用水平柱状图处理时间序列?barusu [问题] 水平柱状图标签显示问题barusu