[问题] fread 和 未读取资料状态下检查资料

楼主: JJabrams (JJ)   2015-11-19 11:45:38
[问题类型]:
程式咨询(我想用R 做某件事情,但是我不知道要怎么用R 写出来)
[软件熟悉度]:
入门(写过其他程式,只是对语法不熟悉)
[问题叙述]:
用R读取大概1.5亿笔5G的csv资料(5 variables)
理论上资料应该是完整没有missing value
想要用fread读取csv档,却遇到下列error:
> raw_data <- fread('all_data.csv')
Read 35.1% of 151308116 rows
Error in fread("all_data.csv") :
Expected sep (',') but new line or EOF ends field 1 on line 55828616 when
reading data: 58
改用 read.csv 就可以顺利读取 (只是花了好久的时间......)
想请问:
1. 为什么fread读不进来?
2. 有没有办法在不读取资料的状态下, 直接去检查 line 55828616 这边的资料有
没有破损?
谢谢大家!!
[关键字]:
dplyr,fread
作者: celestialgod (天)   2015-11-19 12:44:00
fread必须是regular csvread.csv没有要求可以用readLines(可以输入特定列)查看
楼主: JJabrams (JJ)   2015-11-19 15:52:00
请问一下什么是regular csv? 我google了一下仍然不太懂是只有用"," "\n" """ 这三种区隔的形式吗?我的资料只有,和ㄧ些na 是因为这样无法使用fread吗?thx!
作者: celestialgod (天)   2015-11-19 17:14:00
基本上,每列,数目相同就是一个regular csv?fread Description第三列就有了

Links booklink

Contact Us: admin [ a t ] ucptt.com