Hi 大家好 想问一个观念题
我有一个其他程式每天会固定输出一个固定格式的csv到固定的资料夹
我目前已经实现用dataframe把当日新的csv内重复的资料删除并保留最新的 并将每天处
理过的csv
另存到其他资料夹并自动上传到云端
ex:
人名,穿着,时间
小明,黄色衣服,17:50 6/18
小明,红色衣服,18:50 6/18
根据同样的人名小明 只保留最新时间的资料的小明红色衣服资料 删除旧的小明黄色衣服
的资料
但我现在遇到的问题是如果有跨csv的重复人名资料 ex小明可能会出现在前天6/16的跟今
天6/18的csv 我要删除旧的重复资料就会有难度 请问有没有比较好的方法来去做管理?
for loop把所有csv read到同一个df感觉没有有点不切实际?因为我有非常多csv档
谢谢
作者: longlongint (华哥尔) 2022-06-19 03:07:00
建索引啊 key 出现在哪些档案然后你会发现“存多个csv”这个性质你要思考一下建议数据库啦 但你又下了一个有矛盾的强大限制