[问题] 找出字段内，重复次数最多的资料 lin10th PTT批踢踢实业坊

[问题] 找出字段内，重复次数最多的资料

楼主: lin10th (John) 2019-12-16 10:53:33

[软件程式类别]:
R
[程式问题]:
资料处理，找出重复次数最多
[软件熟悉度]:
学习约两个月
[问题叙述]:
读取健保数据库，共有40个字段。其中第14个字段看诊科别与第20个疾病种类，我想要
查询数量最多的前10名(总共有11万笔看诊资料)
数据库读出来的程式命名data1
除了直接用data1[,14]与data2[,20]取出两个需求的字段外
也有试着用data3[,c("FUNC_TYPE","ICD9CM_1")] #第14字段名为FUNC_TYPE, 第20字段名
ICD9CM_1。这个方式直接取出两组需要计算的字段。
有找到书籍跟网络上的资讯，是不是要用dplyr套件内的group_by跟summarise两个函数
比较容易找出来看科别与疾病的钱前10名？

作者: Edster (Edster) 2019-12-16 12:20:00

table 这支函数就可以了。

作者: locka (locka) 2019-12-16 13:16:00

两个字段是各自独立计算吗？如果是的话用table就可以，如果需要计算两个字段出现最多的组合前10名，可用data %>% group_by(c1,c2) %>% tally()

作者: taya1991 (请叫我鸡头!) 2018-01-14 02:45:00

summary(as.factor(你的资料))，sort后列出前10名，但你有确定你资料干净吗？

继续阅读

[问题] 如何使用sink输出带有ansi escape的档案a78998042a [分享] PTT资料获取工具-PTTmineRisolaXCC [问题] rvest爬取股票网页资料j2225653 Re: [问题] 循环的计算(小复杂)empireisme Re: [问题] 生满足条件的样本个数andrew43 [问题] Twitch API 疑问(httr)Blackdawn [问题] 生满足条件的样本个数empireisme [问题] 循环的计算(小复杂)empireisme [问题] taskscheduleRjerkoffme [问题] 关于爬虫-抓取资料日期hank830214