[闲聊] 进阶数据RAPM简介(一): PER

楼主: f820203 (frankkao)   2021-10-14 19:10:12
常常看到球迷引用进阶数据分析球员
但往往都是直接拿数字来比大小
较少人会针对背后的数学公式/模型进行讨论
因此想来介绍个在进阶数据中鼎鼎大名的RAPM
要介绍进阶数据之前要谈一下进阶数据老祖宗Player Efficiency Rating (PER)
基本上就是把box score一大串数据透过公式变成uPER(unadjusted PER)
再透过pacing调整(adjusted PER, aPER)避免打得快的球队洗数据
最后把联盟平均设在15来调整并计算出最后的PER
详细计算过程
https://reurl.cc/Mk4x4X
PER会有其历史定位有两个原因
第一个是方便且一目了然,可以用一个数字代表球员的表现
另一个原因则在于发明者John Hollinger很懂推广手法
透过调整公式让
球星PER落在30左右
普通球员大概15附近
比较差的球员则是个位数
这个数字大小跟场均得分很像,因此大家看到数字比较容易有连结感
不过PER虽然有其历史意义,但在数据分析的角度是一蹋糊涂
接下来就来简单说明PER的缺陷
1. 只看box score鼓励刷数据,无法反应对球队的影响。
球员战术执行 卡位 防守轮转这种影响比赛结果的细节都不会反映在PER
2. 只有固定公式,无法随不同时代球风变化调整
3. 过度重视长人。
由于发明的时代长人比较吃香
因此PER重视的数据如篮板和低失误率都是对长人有利对后卫不利
4. 未针对对手强度优化。
球员去打二阵或三阵虐菜数据就是比打一阵漂亮
最明显的例子就是Boban Marjanovic每年都缴出LBJ等级的鬼神PER
5. 未针对角色定位优化。
一个中锋整场投进1颗三分还行。但球队专职射手一场1颗三分不ok
6. 过度重攻轻守,且对于防守评价有很大问题,只看火锅和抄截。
专职防守者洗不到数据,因此PER普遍低落
另外预先卡死传球线,黏死对手不让对手运球无法显现在PER
反之爱赌博性防守会乱站位乱抄球对球乱挥
反而比较容易洗到数据(ex. Isaiah Jackson)。
这些其实对公式修正一下就好
最严重的是John Hollinger没有数据分析背景,因此研究方法有明显的问题
正确的作法:
Step 1 找出一个想要解释的现象 (ex 怎样的球员会让球队赢球机率增加)
Step 2 试图创造一个假说/模型解释这个现象
Step 3 套入数据到验证资料,透过误差平方和大小求出模型效度以及信度
Step 4 根据观察到的现象修正模型
John Hollinger的作法:
Step 1 我想知道谁比较强
Step 2 把box score混一混做成撒尿丸公式
Step 3 没了
事实上PER是进阶数据中信度和效度最差的,且噪声相当强没啥统计意义
业界已经没人在用了,大概只剩球迷拿来论战。
既然PER无法反映出特定球员对于球队获胜机率的影响,就有人提出正负值相关的作法。
这部分就下回待续了。
延伸阅读
https://reurl.cc/XlqYZ3
https://reurl.cc/emL4Gb
作者: kaneggyy (负けないで!)   2021-10-14 19:19:00
作者: leoc554 (emanuel)   2021-10-14 19:24:00
作者: dogville (犬村)   2021-10-14 19:25:00
PER本来就问题多多 但也没有到没人用与其说是没人用 不如说现在各家都想推自己的数据
楼主: f820203 (frankkao)   2021-10-14 19:29:00
前阵子有人访问NBA业内29位总管/数据分析主管没有人视PER为有效指标现在业界主流是建立模型而非固定公式并透过ridge regression 优化模型结果
作者: hydeless (海德)   2021-10-14 19:32:00
PER多半只用在跟自己比现在只剩下
作者: cowbay5566 (靠北5566)   2021-10-14 23:35:00
PTT还是很爱用这个
作者: monkey0135 (HappyThompson)   2021-10-15 00:52:00
作者: henry52617 (彭)   2021-10-15 08:28:00
作者: spursgdppop   2021-10-17 11:57:00

Links booklink

Contact Us: admin [ a t ] ucptt.com