[问题] 想请问有更有效率的写法吗? sariel0322 PTT批踢踢实业坊

[问题] 想请问有更有效率的写法吗?

楼主: sariel0322 (sariel) 2014-08-24 14:05:40

我想把一个列数相当多的csv档案
把里面重复的列数给删除掉
我只能想到这种写法:
import csv
rows = []
a = 0
o = open("output.csv","w")
f = open("input.csv","r")
for row in csv.reader(f):
rows.append(row[0]+","+row[1]+","+row[2]+","+row[3]+","+row[4]+","+row[5]+","+row[6]+","+row[7]+","+row[8]+","+row[9]+","+row[10])
for i in set(rows):
o.write(i+"\n")
f.close()
o.close()
但由于行数非常多，资料量也大(csv档案约400mb)
因此全部跑完可能需要五天(有写个计数器来大约计算过，为了节省空间没列出来)
想请问有没有更有效率的写法

作者: LiloHuang (十年一刻) 2014-08-24 17:02:00

如果重复的资料很多，应该可以不用先把资料放到list内提供一个做法也许不见得会变快 XDimport csvuniqueSet = set()o = open("output.csv","w")f = open("input.csv","r")for row in csv.reader(f):line = ",".join(row)if line not in uniqueSet:o.write(line + "\n")uniqueSet.add(line)f.close()o.close()有时候性能瓶颈是在硬盘本身，可以看看 CPU 是否有吃满毕竟 400mb 的 CSV 要跑到五天真的有点久了些...避免先放到 list 再转，至少可以省掉一次 O(n) 的浪费

作者: yjc1 (.来而色月踏我.) 2014-08-24 20:41:00

不考虑用shell的sort -n < input.csv | uniq > output.csv ?

作者: LiloHuang (十年一刻) 2014-08-24 21:10:00

推 yjcl 的做法，虽然会动到资料先后顺序，但非常优雅!

继续阅读

Re: [问题] PyQt5写的.pyw不能跑Neisseria [问题] PyQt5写的.pyw不能跑annisat [问题] 停止正在执行 3rd party lib 的 thread carylorrk [问题] 请问发行套件以及下载套件观念问题maxjoiny [问题] 档案读取与资料使用问题wsqa [问题] 反斜线\在python的处理hsushipei Re: [问题] 用Python 写 shellgargoyle005 [问题] docs.scipy.orgfischcheng [问题] 用Python 写 shellkamihane Fw: [广告] 关于小孩学习程式语言的资讯Breadhouse