[问题] groupby 效能改进

楼主: f496328mm (为什么会流泪)   2018-03-25 19:02:10
想问要怎么改进以下的 code , 让速度变快
我以前是写 R 的, 正将 code 转换为 Python, 照理说 Python 应该要比较快
可是我不太熟悉 Python, 所以来请教版上的大大
我撷取一部分 data, 可以由这下载 :
https://drive.google.com/open?id=1mneTEgrK22mKK7a4fquyMaW3pchIc-kh
Python code
#====================================================
import os,sys
import pandas as pd
import numpy as np
import datetime
os.chdir('/home/linsam/project/Kaggle/Grupo Bimbo Inventory Demand')
data = pd.read_csv('train2.csv')
#
作者: celestialgod (天)   2018-03-25 19:42:00
https://goo.gl/1gYJghhttps://goo.gl/Mv5nTX groupby字串的看起来还可以Test 4by int或是numeric 就满悲剧的XDD所以你说Python一定比较快 恩... 应该还是不一定而且data.table的测试指出pandas内存用太多在dplyr, data.table没爆的情况下,pandas爆了
作者: abc2090614 (casperxdd)   2018-03-25 22:14:00
pandas内存效率比data.table差很多Wes McKinney自己有说pandas是吃内存怪兽...
作者: celestialgod (天)   2018-03-25 22:18:00
trace了一下issue,2E9列,pandas会爆掉那个已经fix
作者: Luluemiko (露露)   2018-03-26 00:42:00
Pandas on Ray 不知道这个有没有帮助
作者: aaaba (小强)   2018-03-26 12:25:00
pySpark 表示:

Links booklink

Contact Us: admin [ a t ] ucptt.com