大略看了一下原文
提供我的一点浅见
首先
使用机器学习处理问题
是假设实际存在一个真实的模型
接着透过资料训练出一个模型尽可能接近真实的模型
然后我们就可以拿训练出来的模型对新的资料做预测
但是在这个问题上面
MVP票选并不是一个固定的模型
投票的人不一样 投票的思维也不一样
即便是同一批人 重新投一次票结果可能也不会一样
因此
在这种问题上使用机器学习
甚至是各种资料科学的方法都可能存在不小的问题
资料的选取也很奇怪
作者的目的是建构一个预测MVP得主的模型
但实际上
他建构的是预测MVP得票排序的模型
作者为了让训练资料更多
把资料做了一个特别的调整
将原本的单一年度单一球员的资料(features)+是否为MVP(label)
调整成整个MVP票选结果排序中任意两两一组+谁的票多
具体详细做法也没有揭露
这样的做法存在非常大的问题
因为同类型的球员会有分票效应
你不会知道把第一名的球员抽出之后
原本投给他的票会如何地分配给后面的球员
整个MVP票选结果 并没有 告诉我们两两一组的票选结果
但是作者的模型大量使用了两两一组的排序关系作为训练资料
然后最重要的是模型训练方式跟模型评估
除了揭示使用了 XGBoost与LambdaMART 外
其他所有重要资讯都没有揭露
我们无法得知所有的38年之中
哪些年份被拿来做为训练资料
或是每个年份中哪些两两成对的组合是训练资料
当然更不会知道训练出来的模型评估结果好或坏
也不无可能作者把训练资料跟测试资料反复做各种分切
最后选取一种最满意的切法做最后的建模
这样做就会造成 data leakage 的问题
大概先这样