[问题] 找出字段内,重复次数最多的资料

楼主: lin10th (John)   2019-12-16 10:53:33
[软件程式类别]:
R
[程式问题]:
资料处理,找出重复次数最多
[软件熟悉度]:
学习约两个月
[问题叙述]:
读取健保数据库,共有40个字段。其中第14个字段看诊科别与第20个疾病种类,我想要
查询数量最多的前10名(总共有11万笔看诊资料)
数据库读出来的程式命名data1
除了直接用data1[,14]与data2[,20]取出两个需求的字段外
也有试着用data3[,c("FUNC_TYPE","ICD9CM_1")] #第14字段名为FUNC_TYPE, 第20字段名
ICD9CM_1。这个方式直接取出两组需要计算的字段。
有找到书籍跟网络上的资讯,是不是要用dplyr套件内的group_by跟summarise两个函数
比较容易找出来看科别与疾病的钱前10名?
作者: Edster (Edster)   2019-12-16 12:20:00
table 这支函数就可以了。
作者: locka (locka)   2019-12-16 13:16:00
两个字段是各自独立计算吗?如果是的话用table就可以,如果需要计算两个字段出现最多的组合前10名,可用data %>% group_by(c1,c2) %>% tally()
作者: taya1991 (请叫我鸡头!)   2018-01-14 02:45:00
summary(as.factor(你的资料)),sort后列出前10名,但你有确定你资料干净吗?

Links booklink

Contact Us: admin [ a t ] ucptt.com