[问题] numeric group by rank sacidoO PTT批踢踢实业坊

[问题] numeric group by rank

楼主: sacidoO (阿骂) 2018-01-26 12:37:43

[问题类型]:
程式咨询(我想用R 做某件事情，但是我不知道要怎么用R 写出来)
[软件熟悉度]:
使用者(已经有用R 做过不少作品)
[问题叙述]:
想要将numerical 变量根据/ 数值区间 /rank group/binning 在一起
理想状况是将相似数值组成新的组
限制
(1)由于变量量大 (>100) 不希望手动调区间
(2)bucket上限是20个下限2个
(3)不使用ntile方法因为平均分20组有可能将tie分成好几组 (which is 不合理)
ex.
x1 value:
-1.2,-1.1,-0.8,-0.6,-0.6,-0.6,0.0,0.0,0.0,1.8,1.9,2.1,2.2,8.8,8.9
x1_group(范例)
1 1 1 1 1 1 2 2 2 3 3 3 3 4 4
x2 value:
-100,-99,-88,-50,-49,-31,-22,0, 0, 0,0,0,1,2,3
x2_group(范例)
1,1,1,2,2,2,2,3,3,3,3,3,3,3,3
[程式范例]:
尝试一:
网上找了一些clustering method (ex. k-means)
但是该方法需要输入想要的组数 (但是因为变量分布不同组数不应该是固定的)
尝试2:
看到有网友分享ddply transform rank group 的方法
ex. ddply(df, .(dep_var), transform, group=rank(x1,ties.method='min')-1)
但是这个方法会根据数值的真正值排序并不会把"相似"值bin一起
不知道版上有没有人有处理过相似的问题请教了!!
[关键字]:
binning / grouping numeric into categorical / clustering/...
选择性，也许未来有用

作者: andrew43 (讨厌有好心推文后删文者) 2018-01-26 14:10:00

这终究还是决定于你要怎么分组。按你的说明，同一个变量仍不会有一个特定的分组结果。

继续阅读

[问题] R 预训练模型修改m28633146 [征求] 征求Datacamp 共用会员paschen Re: [问题] 资料整理jasonfghx [问题] 资料整理xdd1524 [问题] R叫唤Fortran程式容易当机nestwood [问题] R keras 自订 loss functionz888888861 [情报] 线上8小时爬虫课程/64折倒数3天va12024 Re: [问题] 移动平均的开头和结尾处理celestialgod [问题] 移动平均的开头和结尾处理giock18 [问题] 资料整合处理angel50732