[问题] R 语言读取序列资料

楼主: ariainaqua (把渚送上本垒吧!)   2017-06-05 09:48:36
[问题类型]:
R 语言读取长短不一的序列资料问题
[软件熟悉度]:
入门(对 R 语法不太熟悉)
[问题叙述]:
目前想读取 22 万笔序列资料(input.csv)如下格式:
a,b,c,a,gcc,aka,c,t
a,b,c,g,gcc,a,nv,qc,c,ntt,ntt1,ntt2,g,ncc,nv
a,sgt,c,a,org,com,ggc,bbc,qc,c,b,ncc,gov,gov,gov,ntt1,ntt2,fb,app,la,d,e,fb,fe
t,
a,b,c,a,gcc,d,sgt,c,fet,1394,1394,1394,fet,fet,org
a,sgt,c,org
...
每一笔资料长短不同,最长为 10,143 个项目;最短 2 个项目。
如果直接用 read.csv 或 read.table 读取的话无法将全部的数列储存为 data.frame,
最大只有 71 行,另外就是原本同一行的资料会被拆成 2 行。
> dim(input)
[1] 210220 71
# 只能读 71 行,且资料少 48,333 笔
> view(input)
57 a b a c c c 1394 c c c org c c c c 1394 ..
.
58 skt skt skt skt
# 57, 58 在原始资料为同一笔(列)
想请问有没有更好的资料读取方式?
后续想接 seqHMM 建立隐马可夫模型, seqHMM 会呼叫 seqdef {TraMineR} 将 data.fra
me 转换成模型的输入格式
谢谢各位前辈的帮忙。感谢 =)
作者: Wush978 (拒看低质媒体)   2017-06-05 11:18:00
Try two package: text2vec or FeatureHashing
楼主: ariainaqua (把渚送上本垒吧!)   2017-06-05 20:14:00
谢谢 Wush 的建议,只是转换成特征向量是不是就不适合使用 HMM 了?
作者: Wush978 (拒看低质媒体)   2017-06-06 00:06:00
我不知道耶,要看你HMM的实做了不然就用strsplit硬干,或是写Rcpp在C++里面处理
楼主: ariainaqua (把渚送上本垒吧!)   2017-06-06 00:53:00
喔喔!原来使用 text2vec 的 ifiles 就可以了,太感谢了 =)

Links booklink

Contact Us: admin [ a t ] ucptt.com