Re: [闲聊] 尝试以机器学习排出P+前三队

楼主: tony790927 (chao)   2022-07-08 10:44:58
感谢大大有趣的文~
刚看了下UCLA论文后有几个机器学习的问题想问,因文长用回文形式,若不适合本版我再删


1. 关于features数目,原论文似乎自己挑18个数据,把一些数据如总篮板数、失误(他们?
得失误比较无法显示好坏表现)等拿掉

而原po似乎是远多于18再用2次降维方式后再K-Mean

不过论文看起来他们只是拿降维后的做2D visual而已 (下图)

https://i.imgur.com/XbFWIRD.jpg

拿去K-Mean的是没降维的,毕竟只有18维。这边或许可以自己挑出类似features,才不会太
杂乱数据影响。

以下是他们选的

https://i.imgur.com/pYlMp8f.jpg

2. 论文最后是有说到其实“每个群是类似的”

如下图, 每个群跟队伍排名的线性关系p-value都很大(p-value 越大信心程度很小)

https://i.imgur.com/nx3TZqw.jpg

“This suggests that there is no relationship between how good a team is and mem
bership in a particular cluster. “

就是几乎没关系的意思

文中提到重点是“离每个分群质心的距离”才能显现好坏球员,例如在x群中的离x群的中心
越远,则球员越猛

https://i.imgur.com/FZ7CUxK.jpg

可看到p-value才0.02左右(0.98的信心)

简言之,如果直接拿每个群当成一二三队似乎不适合,可能用与跟质心的距离排出各个球员
才比较好。

而原PO现在分群中的第一队,可能有些人是比较靠近质心,有些人则是远离质心,比较好的
式可以多列出他们与质心的距离,越大则是越厉害

不过上述都是建立在你是follow这论文的作法,如果你有修改的话可能就不是我上述所说的
一样了。

话说我也可能有错,只是小弟的一些看法,欢迎指正。

发此文的用意只在推崇科学与运动的结合,很感动台篮版越来越活络,也感谢原PO的effort
作者: TimmyWendell (流浪提米)   2022-07-08 12:04:00
好像有些字被吃掉了?像第一点:觉得

Links booklink

Contact Us: admin [ a t ] ucptt.com