Re: [外絮] 用机器学习模型预测MVP得主 y800122155 PTT批踢踢实业坊

Re: [外絮] 用机器学习模型预测MVP得主

楼主: y800122155 (@__@) 2021-04-30 13:33:16

大略看了一下原文
提供我的一点浅见
首先
使用机器学习处理问题
是假设实际存在一个真实的模型
接着透过资料训练出一个模型尽可能接近真实的模型
然后我们就可以拿训练出来的模型对新的资料做预测
但是在这个问题上面
MVP票选并不是一个固定的模型
投票的人不一样投票的思维也不一样
即便是同一批人重新投一次票结果可能也不会一样
因此
在这种问题上使用机器学习
甚至是各种资料科学的方法都可能存在不小的问题
资料的选取也很奇怪
作者的目的是建构一个预测MVP得主的模型
但实际上
他建构的是预测MVP得票排序的模型
作者为了让训练资料更多
把资料做了一个特别的调整
将原本的单一年度单一球员的资料(features)+是否为MVP(label)
调整成整个MVP票选结果排序中任意两两一组+谁的票多
具体详细做法也没有揭露
这样的做法存在非常大的问题
因为同类型的球员会有分票效应
你不会知道把第一名的球员抽出之后
原本投给他的票会如何地分配给后面的球员
整个MVP票选结果并没有告诉我们两两一组的票选结果
但是作者的模型大量使用了两两一组的排序关系作为训练资料
然后最重要的是模型训练方式跟模型评估
除了揭示使用了 XGBoost与LambdaMART 外
其他所有重要资讯都没有揭露
我们无法得知所有的38年之中
哪些年份被拿来做为训练资料
或是每个年份中哪些两两成对的组合是训练资料
当然更不会知道训练出来的模型评估结果好或坏
也不无可能作者把训练资料跟测试资料反复做各种分切
最后选取一种最满意的切法做最后的建模
这样做就会造成 data leakage 的问题
大概先这样

作者: jonathan8907 (Skrillaxs) 2021-04-30 13:57:00

你放心乡民看不懂还是会继续吵继续酸

作者: SwissMiniGun (瑞士迷你枪) 2021-04-30 14:14:00

有做有话题

作者: yowhatsupsli (卖火柴的小女孩) 2021-04-30 14:19:00

恩恩跟我想的一样

作者: JoeChang5566 (揪呛欸56) 2021-04-30 15:09:00

虽然我看不是很懂,这篇我也推

作者: buster520798 (Nick520) 2021-04-30 17:40:00

此文该推，分析透彻

作者: taipeifinest 2021-04-30 23:04:00

卡搞哩来

继续阅读

Re: [外絮] 用机器学习模型预估MVP得主lulululula Re: [讨论] 原来当初Nash的MVP算是偷的？ZeZo Re: [讨论] 原来当初Nash的MVP算是偷的？Nash4208 [情报] Nash:我只需要安排KD上场,然后好事就会发sezna [讨论] 原来当初Nash的MVP算是偷的？sk050607 [新闻] 威廉森关键出手遭挡裁判报告证实约柯奇XperiaZ6C [讨论] Kevin Porter Jr. (史上最年轻50分10助)j891004 [花边] 网友称詹姆斯会多拿7个篮板，KD回应：我KyrieIrving1 [情报] 球员单月三分球命中数排名 (70球以上)MrSatan [外絮] 用机器学习模型预测MVP得主timmyen