[解答] A.R. Clustering

楼主: longlyeagle (长鹰宝宝实验室)   2014-11-28 00:38:02
题目:
Alex Rodriguez 与 Alessandro Laio 在 2014年的六月
于 Science 上面发表了一个聚类的算法:
Clustering by fast search and find of density peaks
里面利用群聚的一些特性还形成一种新的聚类模型
在聚类这种发展多年的领域里还可以发表 Science 论文真的很不容易
请问该验算法是如何做到聚类的?
==============================================================================
解答在下一页喔!!!小心不要雷到!!!
★☆★☆★☆★☆本篇解答含18禁、血腥、暴力、猎奇、令人不适之内容,
可能不适合18岁以下板友观赏,请自行斟酌,不喜者请左转★☆★☆★☆
((若本题是采撷其他作品内容者,请于解答前注明))
((若解答无上述内容者,请出题者自行Ctrl+y删除★☆部份,保留剩余防雷页))
==============================================================================
解答:
不同于过去的算法注重于"群"的概念
这篇的算法把model的重心放在"群的中心点" 或是 "clustering center"
先把一个群的中心点该有的特性找出来
再去看看其他点会被归类到哪个中心点底下
他们列出了两个重点:
1. 群的中心点有高密度
2. 群的中心点距离比他密度高的点应该有一定的距离
(否则他就应该只是附属于另一个群的点 而不是中心点)
计算了所有点的密度 还有距离密度高于他的点的距离之后
我们可以找出群聚中心(clustering center) 单独点(outlier)
还有群聚的点里面属于核心的点跟边缘的点
相较于现在主流的聚类算法 DB-SCAN K-Mean
他不需要做iteration
只需要一次linear的运算
在内存时间跟空间的运用上都大大的提升
而且在参数有调整好的情况下有极佳的辨识率
出处、作者:
science
备注:
想不到被秒杀
我以为会玩一阵子 (都没人)
===================注意解答的标题要跟题库一样喔!===============================
作者: AlexCYW (AlexCYW)   2014-11-28 00:40:00
原来如此 先假设群中心点一定会有的特性然后直接挑出来之前的方法比较像是各种计算后看有没有比较突出的
楼主: longlyeagle (长鹰宝宝实验室)   2014-11-28 00:43:00
像是K-Mean他一开始就是假定"群"跟"群"会分的比较开DB-SCAN也是假定群体之间的点可以互相串连跟用"群的中心点"来聚类的想法是有显著的不同
作者: naminono (诺诺)   2014-11-28 00:46:00
图3D的线范例,是因为三条线的点间距很类似才分的出的?
楼主: longlyeagle (长鹰宝宝实验室)   2014-11-28 00:49:00
跟类似无关 是因为密度比你高又离你最近的点大多是在线的上下几点 最后总会连到密度高的线头
作者: AlexCYW (AlexCYW)   2014-11-28 00:50:00
原来如此 我忘了其他方法要iteration
作者: naminono (诺诺)   2014-11-28 00:51:00
喔喔喔原来如此
作者: AlexCYW (AlexCYW)   2014-11-28 00:51:00
那这样的确复杂度较低不过这样会有误差传递问题吗
楼主: longlyeagle (长鹰宝宝实验室)   2014-11-28 00:54:00
那就要看怎么定义误差了 如果有确定的答案那参数调整的不好是有可能会有不好的分类效果没错
作者: AlexCYW (AlexCYW)   2014-11-28 00:58:00
毕竟被分群后就不可逆了
楼主: longlyeagle (长鹰宝宝实验室)   2014-11-28 01:03:00
是的

Links booklink

Contact Us: admin [ a t ] ucptt.com