假设想要设计一个好的模型应该是:
找到你的Y,Y应该是“球员排名”
换言之没有先透过一个大规模问卷
或是多个问卷进行meta analysis的话
很难有一个有统计意义的公式
接下来要找到一堆x
这部分我觉得原PO的设计概念就会有很大帮助
不过要靠观球的经验法则做一个Empirical model太难了
我想用简单的logit(实际分析可以order logit)
下面用原本的公式当作X假想实验
※ 引述《kuiyy (kuiyy)》之铭言:
: 请注意,本排名仅为实验性质,尝试以单一公式量化球员生涯成就,并不一定真实反应
: 球员历史地位与排名。
: 本年度公式异动幅度较大,变更及说明部分以绿色标示。
: 主要变更:
MVP直接设定成“有无MVP”为一个dummy variable
再设定一个“MVP数量”
然后放一个交互项“有无MVP*MVP数量”
如果这边观察不到显著效果有可能是“有没有连拿两次”这个因子
也可以设定为一个dummy variabe
: 1.双MVP积分降回前年标准:MVP调整至40,FMVP调整至28,去年调升主要是为提高
: 冠军成就比例,但因比例问题同步提高MVP积分导致收效甚微,且冠军成就过分独尊
: FMVP之问题依然未解决,今年将双MVP积分降回,改以其他方式(下列2)改善。
数据部分我想拆分成季赛、季后赛两项
基本上就能观测且解决原文的一些权重问题
: 2.新增主力冠军贡献积分:以夺冠队伍整体季后赛Win Shares为基准,
: 第一名10分、第二名6分、第三名3分,详细积分列表中以W1、2、3标注。
: 变更后总冠军成就除FMVP外增加第二切入点,冠军赛季Win Shares排名,如为毫无
: 争议的球队第一人可获得FMVP(28)+W1(10)合计38分,以常见争议的2015赛季为例,
: 原本只有小AI获得FMVP(35),新版小AI获得FMVP(28)+W3(3),Curry也得到W1(10),
: 一定程度修正FMVP如含金量不足所造成的积分不公平问题,对球队夺冠有重大贡献的
: 二、三号球员也能获得更多积分,而非独尊FMVP一人。
: 再举例2008赛尔提克,原本除基本总冠军积分之外,只有PP拿到FMVP(35),
: 而新制:PP FMVP(28)+W3(3),KG W1(10),雷枪W2(6),应较旧制合理。
: 修正过后冠军队伍主力排名上升,只有年度MVP而无冠军的球员积分下滑较为明显。
: 新增主力冠军贡献积分后,FMVP比重稀释,相对适合跨时代比较。
: 本年度排名涨跌是与2022年调整后数据相较,2022年新版排名附于文后。
: 排名积分分为三大部分:1.冠军成就 2.赛季荣誉 3.生涯累积
我觉得这部设计是我最看不太懂根据的
透过回归设计直接控制“冠军有无”、“冠军有无*季后赛数据”的交互项
跑出来看共变量就一翻两瞪眼知道哪些因子重要
: 1.冠军成就:
: 总冠军积分:该季季后赛PER*出赛时间/48*出赛比例
: 分区冠军积分:该季季后赛PER*出赛时间/48*出赛比例/4
: 主力冠军贡献积分:该季季后赛WS 第一名:10 第二名:6 第三名3 (本年度新增)
: FMVP积分:28(年度MVP7成) (旧版35)
: CFMVP积分:7(FMVP 1/4)
: 冠军成就积分以年度MVP为比较基础,以尽量符合多种主流价值观的方式,为冠军成就
: 积分提供一定程度的比较基础。
: 率队夺冠高于年度MVP:此处以相关冠军积分加FMVP约60分的方式,高于年度MVP40分
: 年度MVP高于FMVP:年度MVP40分高于FMVP28分
: 冠军为团队荣誉:以效率值乘上上场时间及出赛比例,使所有有做出贡献的球员
: 都能以相同标准获取相对应的积分。
: 2.赛季荣誉:
: 年度MVP积分 MVP:40 第二名:10 第三名:5 (旧版MVP50)
: 年度最佳阵容积分 一阵:10 二阵:6 三阵:3
: DPOY积分:3
: 最佳防守阵容积分 一阵:1 二阵:0.5
: 单项数据王积分 得分:1 篮板:0.5 助攻:0.5 抄截:0.5 阻攻:0.5
: 明星赛积分:3
: 例行赛荣誉以MVP、年度阵容及明星赛为主,防守阵容及单项数据王仅为加分项目。
: 年度MVP前三名及年度阵容、明星赛皆为攻防两端数据及战绩全面考量之荣誉,本身已
: 包含防守及单项表现,为避免防守阵容及单项数据王相对不合理的重复奖励,是以整体
: 考量的荣誉为主,此举并非认为防守成就或单项数据王不重要,请理解知悉。
: 3.生涯累积:
: 例行赛PER积分:例行赛PER*出赛时间/48*出赛数/500
: 季后赛PER积分:季后赛PER*出赛时间/48*出赛数/250
: 例行赛WS积分:例行赛Win Shares/4
: 季后赛WS积分:季后赛Win Shares/2
: 生涯累积以Win Shares为基准,PER积分加权至与Win Shares积分相当。
: 设计方式以赛季荣誉为基础,订好各荣誉积分后,再调整冠军成就及生涯累积之比例,
: 使三项积分之间比例尽量趋于合理。
: 新版
: 冠军成就 赛季荣誉 生涯累积 总 分
: 平均值:65.8(25.3%) 117.6(45.3%) 76.4(29.4%) 259.8
: 中位数:48.2 81.3 71.5 194.3
: 旧版
: 冠军成就 赛季荣誉 生涯累积 总 分
: 平均值:56.6(22.0%) 123.5(48.1%) 76.2(29.7%) 256.9
: 中位数:37.9 83.3 71.5 192.2
: 联盟早期无FMVP或年度阵容第三阵等荣誉,视作弥补早期规模较小,总冠军及其他荣誉
: 取得较为容易之自然平衡机制,不强行做调整。
: 本表包含ABA数据,但以NBA为主,仅列生涯一半以上在NBA出赛之球员,考量规模,积
分
: 折半计算,并以季后赛MVP代替FMVP,不计算分区冠军积分(因比同期NBA少打一轮)。
: 极少数BAA(NBA前身)缺失数据以该球员生涯平均值代替,考量数据缺失时期多为球员巅
: 峰,以平均值代替仅为一定程度弥补,不至于虚高,虽有失真之虑,但仍较欠缺为佳。
: 本表包含MVP Shares排名前百大、年度阵容次数前百大、明星赛次数前百大、例行赛、
: 季后赛Win Shares前百大,3冠以上球员,扣除重复约270名球员加入评比。
:
除了数据面控制外,把薪资也纳入控制因子应该也会更准确
总而言之,先以投票结果导出一个模型
尔后再进行微调,当然模型选择也需要很多验证
以目前的资料量跟一堆不同人的百大排名
应该有不少公司有一套机器学习下的模型
ESPN那套胜率预测应该也是这个设计脉络(?
所以说要直接捏出一个历史排名公式几乎办不到
提出一套研究设计分享一下
最近没空玩资料整理资料
如果刚好手头有资料整理好的人我试想可以用ologit(stata)跑跑看历史排名每升一名那
些因子会有什么变化