[问题类型]:
R 语言读取长短不一的序列资料问题
[软件熟悉度]:
入门(对 R 语法不太熟悉)
[问题叙述]:
目前想读取 22 万笔序列资料(input.csv)如下格式:
a,b,c,a,gcc,aka,c,t
a,b,c,g,gcc,a,nv,qc,c,ntt,ntt1,ntt2,g,ncc,nv
a,sgt,c,a,org,com,ggc,bbc,qc,c,b,ncc,gov,gov,gov,ntt1,ntt2,fb,app,la,d,e,fb,fe
t,
a,b,c,a,gcc,d,sgt,c,fet,1394,1394,1394,fet,fet,org
a,sgt,c,org
...
每一笔资料长短不同,最长为 10,143 个项目;最短 2 个项目。
如果直接用 read.csv 或 read.table 读取的话无法将全部的数列储存为 data.frame,
最大只有 71 行,另外就是原本同一行的资料会被拆成 2 行。
> dim(input)
[1] 210220 71
# 只能读 71 行,且资料少 48,333 笔
> view(input)
57 a b a c c c 1394 c c c org c c c c 1394 ..
.
58 skt skt skt skt
# 57, 58 在原始资料为同一笔(列)
想请问有没有更好的资料读取方式?
后续想接 seqHMM 建立隐马可夫模型, seqHMM 会呼叫 seqdef {TraMineR} 将 data.fra
me 转换成模型的输入格式
谢谢各位前辈的帮忙。感谢 =)