Re: [问题] 透过R使用Rhdfs package读取超大CSV档 dppman PTT批踢踢实业坊

Re: [问题] 透过R使用Rhdfs package读取超大CSV档

楼主: dppman (*^o^*) 2014-05-23 10:28:17

※ 引述《Wush978 (拒看低质媒体)》之铭言：
: ※ 引述《dppman (*^o^*)》之铭言：
: : 我试了repeat：
: : repeat {
: : m = hdfs.read(f)
: : c = rawToChar(m)
: : print(c)
: : if ( is.null(c) ) break
: : }
: : 可是跑好久还没跑完...
: : 我是用Web版的RStudio开发，看了一下m的type是raw...
: : Sorry..我只剩C还在脑中有，R实在跟他不熟....
: : 不知道是否有人可以指点一下...，这样的写法是否OK？怎么增加效能呢？
: : Thanks in advance!
: : 　
: 建议你先测量一下throughput
: ```r
: start.time <- Sys.time()
: repeat {
: m = hdfs.read(f)
: duration <- as.numeric(difftime(Sys.time(), start.time, unit = "secs"))
: print(length(m) / duration) # 每秒的bytes数
: start.time <- Sys.time()
: }
: ```
: 先看一下hdfs.read的效能，如果throughput是1MB / s的速度的话
: 20G 需要 20*2^30 / 2^20 秒，大约是5.6小时
:

作者: Wush978 (拒看低质媒体) 2014-05-24 00:50:00

加大buffersize看看

楼主: dppman (*^o^*) 2014-05-27 10:32:00

如果想插Rprof()该放哪里比较好呢？

继续阅读

[问题] 型别转换？ljta Re: [问题] 透过R使用Rhdfs package读取超大CSV档Wush978 Re: [问题] 透过R使用Rhdfs package读取超大CSV档dppman [问题] 加载TSA 但没有eacf和coeftest函数IminXD [问题] 建置个人的R + Hadoop环境Pagan [问题] 透过R使用Rhdfs package读取超大CSV档dppman 需要懂R的人帮忙解释一小段芯片微阵列程式码waynecomm021 Re: [问题] 如何找出不同档案中两个栏(column)重复值koai [问题] 如何找出不同档案中两个栏(column)重复值fishily Re: [问题] 筛选资料andrew43