Re: [问题] 将list快速写入档案的方式? stimim PTT批踢踢实业坊

Re: [问题] 将list快速写入档案的方式?

楼主: stimim (qqaa) 2016-03-08 11:54:18

: with open('123.txt') as fi, open('456.txt', 'w') as fo:
: for _ in xrange(startindex): # 跳过 startindex 行
: fi.next()
: for _ in xrange(endindex - startindex):
: fo.write(fi.readline())
: 我不确定后面的方法会不会比较快, 但至少比较省内存（不用整个档读进来）
因为不用把整个档案读进内存，在档案大的时候肯定会比 readlines() 快不少
另外，我发现如果用 itertools + writelines 的话，可以再快一些
实验方法：
1. 生成档案：
n = 2 * 10 ** 7
for _ in xrange(n):
print _
2. 分别用下列的 main 函数来读档、写档
def main(i, o):
with open(i) as fi, open(o, 'w') as fo:
fo.writelines(itertools.islice(fi, 30, 1500000))
def main(i, o):
with open(i) as fi, open(o, 'w') as fo:
map(fo.write, itertools.islice(fi, 30, 1500000))
def main(i, o):
with open(i) as fi, open(o, 'w') as fo:
for _ in xrange(30):
fi.readline()
# fi.next() or next(fi) will cause ValueError on next fi.readline()
for _ in xrange(1500000 - 30):
fo.write(fi.readline())
3. Result:

可以看到 writelines + itertools 最快， map + write + itertools 次之
不过很神奇的是用 map 时，内存的使用量高了不少。

作者: octantis (@.@) 2016-03-08 18:20:00

请问你是怎么监看时间的?

作者: uranusjr (â†é€™äººæ˜¯è¶…ç´šç¬¨è›‹) 2016-03-09 01:58:00

我猜可能是因为 map 还是会 allocate 一个 list 的关系想看执行时间请参考 timeit module

楼主: stimim (qqaa) 2016-03-09 09:55:00

我是装 memory_profiler (pip install memory_profiler)然后用 mprof run xxx.py args...mprof plot 可以画图

作者: octantis (@.@) 2016-03-09 11:13:00

感谢你, 我去试试, 我之前都用timeit只是他有图好方便XD

继续阅读

[问题] python 将爬出来的资料汇出至档案brightsu Re: [问题] 正规表达式有好方法表达非数字的字母吗JackBaska Re: [问题] 正规表达式有好方法表达非数字的字母吗realtemper [问题] .py路径问题aaccbb [问题] 正规表达式有好方法表达非数字的字母吗opengood5566 [资讯] PyCon Taiwan 2016 征求投稿中！ ccwang002 [问题] 命令列引数的数目maxding0430 Re: [问题] 将list快速写入档案的方式?uranusjr [讨论] python的读书会?JackBaska [问题] django 新手起步问题MrPanda