Re: [问题] 分群的问题 kener1988 PTT批踢踢实业坊

Re: [问题] 分群的问题

楼主: kener1988 (豆仔) 2011-06-01 22:37:47

※ 引述《jizzer5566 (陈雅姿噗滋)》之铭言：
: 假设在一个二维的空间有许多点
: 每个点有三种属性的其中一种分别是A或B或C属性
: 我想借由点与点的距离来做分群
: 希望在同一群里面都是相同属性
: 假设我分10群取10个中心点
: 某1中心点为B属性
: 那该群内的每个点我都预测为B属性
: 再以猜对的点数/全部点数算正确率
: 我想请问一下
: 如果将分群数提升为20群甚至30群后
: 正确率反而下降了是合理的吗
: 其原因可能有哪些？
分群的算法看起来向k-means 所以我用k-means来分析
假设你资料在二维空间中长这样好了
AAAAAAAAA* B*BBBBBBB* C*CCCCCCC
AAAAAAAAA* B*BBBBBBB* C*CCCCCCCC
AAAAA'AAAA* B*BBB'BBBB* C*CCCC'CCCC
AAAAAAAAA* B*BBBBBBB* C*CCCCCCCC
AAAAAAAAA* B*BBBBBBB* C*CCCCCCCC
当K越大时每个cluster的半径越小
因此在属性交集的地方 ex:如a和b交接处与b和c交接处
原本k很小时群的半径大
即使有些离群值离群中心（上图的A' B' C'）很远
还是可以正确的分群
但当K变大时会发现有些ABC(上图的A* B* C*)离它们的中心点很远
反而这些离群值彼此比较近互相结合成cluster
正确性就下降了
以上是小弟的一点看法如果有错请各位多多包含

作者: jizzer5566 (陈雅姿噗滋) 2011-06-02 03:02:00

感谢你的讲解

作者: dpi 2011-06-04 16:04:00

恩...有些outlier会组成一群导致准确率下降因此还需要动态的去决定分群的个数会比较准确~~

继续阅读

[问题] 分群的问题jizzer5566 [问题] 请问关于作业系统在控制I/O这块utingY [学术问卷]关于程式语言社群~可抽大奖喔!恳请大家帮忙填写！rdw216 Re: [请益] 资料结构堆叠伫列搜寻(已订正题目)retinitis Re: [请益] 资料结构堆叠伫列搜寻micklin [请益] 资料结构堆叠伫列搜寻(已订正题目)irene6524 [网宣]邀请参加第一届中华太谷杯-嵌入式系统创意应用竞赛kiptt [问题] 有关计算机网络的问题loblve [问题] iLBC(skype codec)要如何使用artist0408 [问题] rss to emailhanta