[问题] 遗漏值检视与处理

楼主: sinclairJ (KEEP MOVING FORWARD)   2015-06-11 17:51:08
在这个UCI资料集中(n=32561)
http://archive.ics.uci.edu/ml/machine-learning-databases/adult/ (adult.data)
遗漏值的符号是用?表示
在R中 印象中也会把?辨认为missing value
但刚刚执行了一下程式 却没办法把遗漏值读出来...
程式码与输出结果如下
> sum(is.na(adult))
[1] 0
> sum(complete.cases(adult))
[1] 32561
因为小弟在后面的分析需要先把遗漏值进行impute
但现在第一步就遇到了困难...烦请各位前辈指导
感谢!
作者: celestialgod (天)   2015-06-11 18:16:00
adult=adult[-which(adult=="?", arr.ind=T)[,1],]
楼主: sinclairJ (KEEP MOVING FORWARD)   2015-06-11 20:07:00
看不懂C大的程式...QQ 有分段简洁版吗 哈!
作者: celestialgod (天)   2015-06-11 20:09:00
which(adult=="?", arr.ind=T)取出有?的列数更正 列跟行index加上[,1]是取第一行 就是列的index
楼主: sinclairJ (KEEP MOVING FORWARD)   2015-06-11 20:51:00
跑出来的结果怪怪的...应该是说 我想知道该?位于哪一个cell 然后我可以对这个cell进行补值(例如补平均值之类)
作者: celestialgod (天)   2015-06-11 23:14:00
我只是写删除,补值自行可以延伸....

Links booklink

Contact Us: admin [ a t ] ucptt.com