Re: [闲聊] 尝试以机器学习排出P+前三队 tony790927 PTT批踢踢实业坊

Re: [闲聊] 尝试以机器学习排出P+前三队

楼主: tony790927 (chao) 2022-07-08 10:44:58

感谢大大有趣的文～
刚看了下UCLA论文后有几个机器学习的问题想问，因文长用回文形式，若不适合本版我再删
文

1. 关于features数目，原论文似乎自己挑18个数据，把一些数据如总篮板数、失误（他们?
得失误比较无法显示好坏表现）等拿掉

而原po似乎是远多于18再用2次降维方式后再K-Mean

不过论文看起来他们只是拿降维后的做2D visual而已（下图）

https://i.imgur.com/XbFWIRD.jpg

拿去K-Mean的是没降维的，毕竟只有18维。这边或许可以自己挑出类似features，才不会太
杂乱数据影响。

以下是他们选的

https://i.imgur.com/pYlMp8f.jpg

2. 论文最后是有说到其实“每个群是类似的”

如下图, 每个群跟队伍排名的线性关系p-value都很大（p-value 越大信心程度很小）

https://i.imgur.com/nx3TZqw.jpg

“This suggests that there is no relationship between how good a team is and mem
bership in a particular cluster. “

就是几乎没关系的意思

文中提到重点是“离每个分群质心的距离”才能显现好坏球员，例如在x群中的离x群的中心
越远，则球员越猛

https://i.imgur.com/FZ7CUxK.jpg

可看到p-value才0.02左右（0.98的信心）

简言之，如果直接拿每个群当成一二三队似乎不适合，可能用与跟质心的距离排出各个球员
才比较好。

而原PO现在分群中的第一队，可能有些人是比较靠近质心，有些人则是远离质心，比较好的
式可以多列出他们与质心的距离，越大则是越厉害

不过上述都是建立在你是follow这论文的作法，如果你有修改的话可能就不是我上述所说的
一样了。

话说我也可能有错，只是小弟的一些看法，欢迎指正。

发此文的用意只在推崇科学与运动的结合，很感动台篮版越来越活络，也感谢原PO的effort

作者: TimmyWendell (流浪提米) 2022-07-08 12:04:00

好像有些字被吃掉了？像第一点：觉得

继续阅读

[讨论] 即使大职篮时代，却仍没有球打的球员PhanCalderon [影片] 李德威儿子多多开示asd123 [新闻] T1选秀球探报告　砍将林子洧有望成黑马s66449 [闲聊] 尝试以机器学习排出P+前三队chih2loveu [新闻] NBA等级体测　虎科篮球队全力拼战新赛s66449 [闲聊] 大B哥回归？KoBuKoLa Re: [新闻] 陈冠全好表现　曾文鼎也称赞asdfgh0920 [情报] 2022亚洲杯3X3 中华女子和男子代表队赛masd911206 [专栏] PLG选秀预测分析 (球探报告)syunnnnn [闲聊] PLG总冠军预测活动奖品发放Shiang1225