Re: [问题] 分群的问题

楼主: kener1988 (豆仔)   2011-06-01 22:37:47
※ 引述《jizzer5566 (陈雅姿噗滋)》之铭言:
: 假设在一个二维的空间有许多点
: 每个点有三种属性的其中一种 分别是A或B或C属性
: 我想借由点与点的距离来做分群
: 希望在同一群里面都是相同属性
: 假设我分10群 取10个中心点
: 某1中心点为B属性
: 那该群内的每个点我都预测为B属性
: 再以 猜对的点数/全部点数 算正确率
: 我想请问一下
: 如果将分群数提升为20群甚至30群后
: 正确率反而下降了 是合理的吗
: 其原因可能有哪些?
分群的算法看起来向k-means 所以我用k-means来分析
假设你资料在二维空间中 长这样好了
AAAAAAAAA* B*BBBBBBB* C*CCCCCCC
AAAAAAAAA* B*BBBBBBB* C*CCCCCCCC
AAAAA'AAAA* B*BBB'BBBB* C*CCCC'CCCC
AAAAAAAAA* B*BBBBBBB* C*CCCCCCCC
AAAAAAAAA* B*BBBBBBB* C*CCCCCCCC
当K越大时 每个cluster的半径越小
因此 在属性交集的地方 ex:如a和b交接处 与b和c交接处
原本k很小时 群的半径大
即使有些离群值离群中心(上图的A' B' C')很远
还是可以正确的分群
但当K变大时 会发现 有些ABC(上图的A* B* C*)离它们的中心点很远
反而这些离群值彼此比较近 互相结合成cluster
正确性就下降了
以上是小弟的一点看法 如果有错请各位多多包含
作者: jizzer5566 (陈雅姿噗滋)   2011-06-02 03:02:00
感谢你的讲解
作者: dpi   2011-06-04 16:04:00
恩...有些outlier会组成一群导致准确率下降因此还需要动态的去决定分群的个数会比较准确~~

Links booklink

Contact Us: admin [ a t ] ucptt.com