[问题] R 语言读取序列资料 ariainaqua PTT批踢踢实业坊

[问题] R 语言读取序列资料

楼主: ariainaqua (把渚送上本垒吧！) 2017-06-05 09:48:36

[问题类型]:
R 语言读取长短不一的序列资料问题
[软件熟悉度]:
入门(对 R 语法不太熟悉)
[问题叙述]:
目前想读取 22 万笔序列资料(input.csv)如下格式:
a,b,c,a,gcc,aka,c,t
a,b,c,g,gcc,a,nv,qc,c,ntt,ntt1,ntt2,g,ncc,nv
a,sgt,c,a,org,com,ggc,bbc,qc,c,b,ncc,gov,gov,gov,ntt1,ntt2,fb,app,la,d,e,fb,fe
t,
a,b,c,a,gcc,d,sgt,c,fet,1394,1394,1394,fet,fet,org
a,sgt,c,org
...
每一笔资料长短不同，最长为 10,143 个项目；最短 2 个项目。
如果直接用 read.csv 或 read.table 读取的话无法将全部的数列储存为 data.frame，
最大只有 71 行，另外就是原本同一行的资料会被拆成 2 行。
> dim(input)
[1] 210220 71
# 只能读 71 行，且资料少 48,333 笔
> view(input)
57 a b a c c c 1394 c c c org c c c c 1394 ..
.
58 skt skt skt skt
# 57, 58 在原始资料为同一笔(列)
想请问有没有更好的资料读取方式？
后续想接 seqHMM 建立隐马可夫模型， seqHMM 会呼叫 seqdef {TraMineR} 将 data.fra
me 转换成模型的输入格式
谢谢各位前辈的帮忙。感谢 =)

作者: Wush978 (拒看低质媒体) 2017-06-05 11:18:00

Try two package: text2vec or FeatureHashing

楼主: ariainaqua (把渚送上本垒吧！) 2017-06-05 20:14:00

谢谢 Wush 的建议，只是转换成特征向量是不是就不适合使用 HMM 了?

作者: Wush978 (拒看低质媒体) 2017-06-06 00:06:00

我不知道耶，要看你HMM的实做了不然就用strsplit硬干，或是写Rcpp在C++里面处理

楼主: ariainaqua (把渚送上本垒吧！) 2017-06-06 00:53:00

喔喔！原来使用 text2vec 的 ifiles 就可以了，太感谢了 =)

继续阅读