PTT
Submit
Submit
选择语言
正體中文
简体中文
PTT
Python
[问题] groupby 效能改进
楼主:
f496328mm
(为什么会流泪)
2018-03-25 19:02:10
想问要怎么改进以下的 code , 让速度变快
我以前是写 R 的, 正将 code 转换为 Python, 照理说 Python 应该要比较快
可是我不太熟悉 Python, 所以来请教版上的大大
我撷取一部分 data, 可以由这下载 :
https://drive.google.com/open?id=1mneTEgrK22mKK7a4fquyMaW3pchIc-kh
Python code
#====================================================
import os,sys
import pandas as pd
import numpy as np
import datetime
os.chdir('/home/linsam/project/Kaggle/Grupo Bimbo Inventory Demand')
data = pd.read_csv('train2.csv')
#
作者:
celestialgod
(天)
2018-03-25 19:42:00
https://goo.gl/1gYJgh
https://goo.gl/Mv5nTX
groupby字串的看起来还可以Test 4by int或是numeric 就满悲剧的XDD所以你说Python一定比较快 恩... 应该还是不一定而且data.table的测试指出pandas内存用太多在dplyr, data.table没爆的情况下,pandas爆了
作者:
abc2090614
(casperxdd)
2018-03-25 22:14:00
pandas内存效率比data.table差很多Wes McKinney自己有说pandas是吃内存怪兽...
作者:
celestialgod
(天)
2018-03-25 22:18:00
trace了一下issue,2E9列,pandas会爆掉那个已经fix
作者:
Luluemiko
(露露)
2018-03-26 00:42:00
Pandas on Ray 不知道这个有没有帮助
作者:
aaaba
(小强)
2018-03-26 12:25:00
pySpark 表示:
继续阅读
[问题] Python的class要如何互相串接?
chchan1111
[问题] 从资料撷取器抓取资料并及时绘图
oway15
[问题] pymongo把list丢进去查询
kennykobe
[问题] 若想要自己做出小朋友下楼梯的AI可行吗
hateli
pycharm 取得命令列引数
snakei14702
[问题] 新手请问大大word档转HTML问题
johnnyaj3
[问题] 新手玩RPI3的问题__AD/DA board
virginbear
[问题] numpy套件版本差异
PyTorch
[问题] 新手请教 GCP nuinx+uwsgi
oscar0130
[问题] Google图书有推荐的py中文书吗
VAIOBIOS
Links
booklink
Contact Us: admin [ a t ] ucptt.com