Re: [问题] 合并类别变量的count (table) celestialgod PTT批踢踢实业坊

Re: [问题] 合并类别变量的count (table)

楼主: celestialgod (å¤©) 2015-04-23 14:22:10

这篇刚好来试试看资料处理顺序跟dplyr, tidyr等工具对于资料整理能力的差异
根据原PO的问题，总共要做三个动作：
1. 去掉只出现一个类别的遭利
2. 列出最小比例的类别以及比例
3. 合并成一张variabel对类别的表格
先试试看三个动作分开做(preprocess_f)，然后合并做(preprocess_f2)
接着用tidyr, dplyr试试看(preprocess_f3)，最后一起比较速度。
PS: 这里就没测试tidyr, dplyr分开做了，让我偷懒一下XD
程式连结：http://pastebin.com/PTzXdf3K
这里只放结果：
st = proc.time()
t1 = preprocess_f(dat)
proc.time() - st
# user system elapsed
# 47.80 0.42 47.39
st = proc.time()
t2 = preprocess_f2(dat)
proc.time() - st
# user system elapsed
# 40.35 0.23 40.03
st = proc.time()
t3 = preprocess_f3(dat)
proc.time() - st
# user system elapsed
# 13.85 0.00 13.89
在这个例子中，资料处理顺序可以有效缩短时间
但是用对工具可以获得更好的效果!
补上：全程最高只用掉500M的内存
环境：windows 7 64 bit, R-3.2.0 (置换RRO的Rblas.dll and Rlapack.dll)
i7-3770K@4.4GHz, DDR3-2400 16G ram

作者: cywhale (cywhale) 2015-04-23 23:16:00

got new tips!! thanks for sharing

作者: sinclairJ (KEEP MOVING FORWARD) 2015-04-24 09:21:00

感谢你

继续阅读

[问题] 合并类别变量的count (table)sinclairJ Re: [问题] 拆解time-dependent的资料bmka Re: [问题] 几个资料预处理问题andrew43 Re: [问题] 几个资料预处理问题celestialgod [问题] 几个资料预处理问题sinclairJ Re: [问题] 拆解time-dependent的资料celestialgod [问题] 拆解time-dependent的资料yummy7922 Re: [问题] adjacency matrixcelestialgod Re: [问题] 有关资料合并的问题celestialgod Re: [问题] 资料转换celestialgod