感谢大大有趣的文~
刚看了下UCLA论文后有几个机器学习的问题想问,因文长用回文形式,若不适合本版我再删
文
1. 关于features数目,原论文似乎自己挑18个数据,把一些数据如总篮板数、失误(他们?
得失误比较无法显示好坏表现)等拿掉
而原po似乎是远多于18再用2次降维方式后再K-Mean
不过论文看起来他们只是拿降维后的做2D visual而已 (下图)
https://i.imgur.com/XbFWIRD.jpg
拿去K-Mean的是没降维的,毕竟只有18维。这边或许可以自己挑出类似features,才不会太
杂乱数据影响。
以下是他们选的
https://i.imgur.com/pYlMp8f.jpg
2. 论文最后是有说到其实“每个群是类似的”
如下图, 每个群跟队伍排名的线性关系p-value都很大(p-value 越大信心程度很小)
https://i.imgur.com/nx3TZqw.jpg
“This suggests that there is no relationship between how good a team is and mem
bership in a particular cluster. “
就是几乎没关系的意思
文中提到重点是“离每个分群质心的距离”才能显现好坏球员,例如在x群中的离x群的中心
越远,则球员越猛
https://i.imgur.com/FZ7CUxK.jpg
可看到p-value才0.02左右(0.98的信心)
简言之,如果直接拿每个群当成一二三队似乎不适合,可能用与跟质心的距离排出各个球员
才比较好。
而原PO现在分群中的第一队,可能有些人是比较靠近质心,有些人则是远离质心,比较好的
式可以多列出他们与质心的距离,越大则是越厉害
不过上述都是建立在你是follow这论文的作法,如果你有修改的话可能就不是我上述所说的
一样了。
话说我也可能有错,只是小弟的一些看法,欢迎指正。
发此文的用意只在推崇科学与运动的结合,很感动台篮版越来越活络,也感谢原PO的effort