※ 引述《jizzer5566 (陈雅姿噗滋)》之铭言:
: 假设在一个二维的空间有许多点
: 每个点有三种属性的其中一种 分别是A或B或C属性
: 我想借由点与点的距离来做分群
: 希望在同一群里面都是相同属性
: 假设我分10群 取10个中心点
: 某1中心点为B属性
: 那该群内的每个点我都预测为B属性
: 再以 猜对的点数/全部点数 算正确率
: 我想请问一下
: 如果将分群数提升为20群甚至30群后
: 正确率反而下降了 是合理的吗
: 其原因可能有哪些?
分群的算法看起来向k-means 所以我用k-means来分析
假设你资料在二维空间中 长这样好了
AAAAAAAAA* B*BBBBBBB* C*CCCCCCC
AAAAAAAAA* B*BBBBBBB* C*CCCCCCCC
AAAAA'AAAA* B*BBB'BBBB* C*CCCC'CCCC
AAAAAAAAA* B*BBBBBBB* C*CCCCCCCC
AAAAAAAAA* B*BBBBBBB* C*CCCCCCCC
当K越大时 每个cluster的半径越小
因此 在属性交集的地方 ex:如a和b交接处 与b和c交接处
原本k很小时 群的半径大
即使有些离群值离群中心(上图的A' B' C')很远
还是可以正确的分群
但当K变大时 会发现 有些ABC(上图的A* B* C*)离它们的中心点很远
反而这些离群值彼此比较近 互相结合成cluster
正确性就下降了
以上是小弟的一点看法 如果有错请各位多多包含