今天早上在reddit看到的文章,觉得挺有趣,转过来跟版友们分享。
小弟不是学资料科学的,如果内文有误也请不吝指正
原文:https://perthirtysix.com/essay/2021-nba-mvp-race
懒人包:
作者(u/robmoo_re)利用了过去38年的NBA的球员资料以及MVP票选结果(包含排名及票数)
建造了一个预估球员得到MVP的机率以及MVP得主的模型,
利用这个模型,在过去38年中可以正确的计算出32年的得主。
在这个模型中,各项球员数据的权重(也就是这个模型认为影响MVP票选最重要的数据)
依序如下:
https://imgur.com/33ouqUG
球队胜率%
每场上场时间
球队种子序
WS/48
每场得分
出赛场次
VORP
2分命中率
罚球次数
助攻数
每场篮板
整体命中率
BPM
Usage%
每场失误数
真实命中率
(以下不列,可以自己看图)
模型利用以上数据算出每一个球员的candidacy score
这个分数越高者,即是模型认为越有可能得到MVP的人选
要特别说的是,某些数据本身是互相有关联性的(譬如:两分/三分命中率及整体命中率,
或是整体命中率跟一大堆进阶数据),由于已经被重复计算过,因此单项的权重会降低,
不代表这项数据就不重要。
===
几个有趣的结果
1. 谁是这38年来MVP分数最高的球员?
答案是08-09年的姆斯,分数高达4.49
2. 那最低分的MVP得主又是谁?
答案是04-05年的Nash,他当年的分数只有1.09
3. 谁的MVP被偷了?(误)
刚刚提到38年中这个模型成功预测出32年的MVP得主,
这也代表其中有6年模型预测跟最终的结果是不一致的,
(1) 2016-2017年的MVP,模型预测得主是Harden(2.73),最终由当年拿下平均大三元
的Westbrook(2.44, 第二)拿走MVP
(2) 2010-2011年,当年分数最高的是LBJ(2.37),最终MVP被Rose(2.23)拿走。
(3) 2004-2005年,也就是上面提到,Nash以史上最低分(1.09)拿下MVP的那年。
当年屈居第二的是Shaq (1.12,其实没差很多),也难怪他老人家到现在还在记仇
另外,隔年(05-06)Nash连庄时MVP分数也不是第一(1.8),
当年分数第一的是LBJ(2.25),只能说Nash真的是这个模型的outlier
4. Kobe到底有没有偷了CP3一个MVP?
如果用这个模型看,答案是没有,当年(07-08)Kobe以2.62分拿下MVP,
屈居第二的CP3分数是2.2分
5. 38年来最大的一二名差距发生在1999-2000年,当年大欧以3.71分拿下MVP,
分数第二的是Alonzo Mourning