不好意思,最近需要跑相当大量的资料
因此需要把code的速度做最有效的提升
这是我的两个data
pfam.csv_IPR_NA.csv(csv不小心重复了,不过不是重点:p):
http://ppt.cc/oB18
proteinIDandGOID_norepet.csv:
http://ppt.cc/NSE3
我需要把第一个csv的第二栏跟第二个csv的第一个字段做对应
有对应到的全部做输出
类似下面这样:
http://ppt.cc/UA7t
以下是我的code:
import csv
proteinID = []
GOID = []
a = 0
o = open("final.csv","w")
g = open("proteinIDandGOID_norepet.csv","r")
f = open("pfam.csv_IPR_NA.csv","r")
for row in csv.reader(g):
proteinID.append(row[0])
GOID.append(row[1])
for row in csv.reader(f):
for i in range(len(GOID)):
if row[1] == proteinID[i]:
o.write(row[0] + "," + row[1]+"," + row[2] + "," + GOID[i] + "\n")
f.close()
o.close()
g.close()
想问一下大家有没有更有效率的写法
感恩orz