[问题] 透过R使用Rhdfs package读取超大CSV档 dppman PTT批踢踢实业坊

[问题] 透过R使用Rhdfs package读取超大CSV档

楼主: dppman (*^o^*) 2014-05-19 12:06:23

[问题类型]:
程式咨询(我想用R 做某件事情，但是我不知道要怎么用R 写出来)
[软件熟悉度]:
入门(写过其他程式，只是对语法不熟悉)
[问题叙述]:
使用R透过RHadoop的Rhdfs 1.0.8
[程式范例]:
我目前的实验环境，需要读取很大的CSV File（存放在Hadoop的HDFS上，档案大小几乎
都大于20GB），
我使用了RHdoop的rhdfs R Package
Ref.
https://github.com/RevolutionAnalytics/RHadoop/wiki
使用Rstudio Web版开发，原始码如下
*************************************************************************************************
Sys.setenv(HADOOP_CMD="/usr/lib/hadoop/bin/hadoop")
Sys.setenv(HADOOP_STREAMING="/usr/lib/hadoop-mapreduce/hadoop-streaming-2.2.0.2.0.6.0-101.jar")
Sys.setenv(HADOOP_COMMON_LIB_NATIVE_DIR="/usr/lib/hadoop/lib/native/")
library(rmr2);
library(rhdfs);
library(lubridate);
hdfs.init();
f = hdfs.file("/bigdata/rawdata/201312.csv","r",buffersize=104857600);
m = hdfs.read(f);
c = rawToChar(m);
data = read.table(textConnection(c), sep = ",");
*************************************************************************************************
读完后，发现它只读进了前一千五百多笔的资料，正确应该有一亿多笔
*************************************************************************************************
去Google了一下，有查到下列这个解的方向
“rhdfs uses the java api for reading files stored in hdfs.
That api will not necessarily read the entire file in one shot.
It will return some number of bytes for each read.
When it reaches the end of the file it returns -1.
In the case of rhdfs, and end of the file will return NULL.
So, you need to loop on the hdfs.read call until NULL is returned”
不过看了rhdfs的手册，并没有仔细提到上面解法关于hdfs.read()的行为:<
不知道有人有这方面经验吗？
[关键字]:
R, Large Scale Data Set, Big Data, Hadoop, RHadoop, CSV, HDFS, rhdfs
Thanks in advance!

作者: Wush978 (拒看低质媒体) 2014-05-19 13:01:00

有没有考虑先用hadoop fs -get 把资料拿到local端再读取?

楼主: dppman (*^o^*) 2014-05-19 15:13:00

hadoop fs -get回local那样效能更差:~而且就不能利用到RHadoop的rmr2用R写MapReduce程式：～

作者: Wush978 (拒看低质媒体) 2014-05-19 15:46:00

文件中是有说这些API都是streaming style

楼主: dppman (*^o^*) 2014-05-19 16:11:00

在Local的话，连读前面的一千五百多比都有问题:~

作者: Wush978 (拒看低质媒体) 2014-05-19 16:22:00

设定一下colClasses, 有差别（用rmr的方式也有差）另外记得看看你电脑的内存够不够

楼主: dppman (*^o^*) 2014-05-19 16:25:00

其实我现在应该就是卡在我程式的m=hdfs.read(f)那边＠＠

作者: Wush978 (拒看低质媒体) 2014-05-19 16:33:00

文件说明得很清楚，你要不停的呼叫hdfs.read(f)直到它回NULL但是内存问题是和hdfs.read无关喔，如果不够读到后来也会出问题

作者: gsuper (Logit(odds)) 2014-05-26 10:31:00

一亿笔相当大...何不分拆?

楼主: dppman (*^o^*) 2014-05-29 11:58:00

如果是一台32G or 64G内存的Linux上Run R，一亿笔怎么拆比较好呢？

作者: gsuper (Logit(odds)) 2014-05-29 13:50:00

一万笔一万笔的读取吧#1HLjk2HI 参考我这篇的最后一段

继续阅读

需要懂R的人帮忙解释一小段芯片微阵列程式码waynecomm021 Re: [问题] 如何找出不同档案中两个栏(column)重复值koai [问题] 如何找出不同档案中两个栏(column)重复值fishily Re: [问题] 筛选资料andrew43 [问题] 类似上三角矩阵warex14 [问题] 筛选资料silent910 [讨论] 征求已会R, 想学C++/Rcpp的版友Wush978 Re: [问题] scatterplot3d 立体散布图"标点"tai34 [问题] scatterplot3d 立体散布图"标点"tai34 Re: [问题] Area under curve/linekoai