[取暖] 超大的csv档

楼主: durantjosh (肚烂特‧乔许)   2018-07-12 15:53:39
总资料快200G,单档案最大2.5G
原本以为每个row都有照着时间顺序排
结果有几笔位置错了,所以要调整其中几笔资料的位置
要怎样在大量的资料中插入row、删除row比较有效率啊
原本是用python的pandas,但....==
作者: FlowerNight (Flowering night)   2018-07-12 15:55:00
pandas已经比原生快惹 应该有点难?
作者: saturday5566 (星期六56)   2018-07-12 15:56:00
白痴才学python
作者: FlowerNight (Flowering night)   2018-07-12 15:56:00
不然就multithread
作者: Apache (阿帕契)   2018-07-12 15:56:00
抽出来放在新的档案会不会快一点多线程我觉得只会卡在硬盘速度上
作者: ILoveElsa (S级18位 梓喵酱油瓶)   2018-07-12 15:59:00
我知道 我这学期有修巨量资料没有欸 我们用pyspark :(
作者: FlowerNight (Flowering night)   2018-07-12 16:08:00
切chunk吧 我查到很多人都这样
作者: Apache (阿帕契)   2018-07-12 16:10:00
爱纱教我spark
作者: Benbenyale (想讓貝魯君更爽♥)   2018-07-12 16:14:00
老婆躺着玩

Links booklink

Contact Us: admin [ a t ] ucptt.com