[棒球] MLB 大数据时代分析方法分享 freedom76912 PTT批踢踢实业坊

[棒球] MLB 大数据时代分析方法分享

楼主: freedom76912 (KHAKI) 2014-08-10 15:54:02

前言：
每个人都有不同的分析策略，就像股票市场有基本面、技术面、筹码面、消息面等等。只要是这种充满太多不确定性的游戏，参与者都只能在众多的假设之下，将问题简化后迳行解决。本人的方法绝对不是最佳解，但是CP值应该还不错（不用花太多时间），欢迎各位提供改良之建议，也诚心希望有网站parser的高手可以合作。
假设：
本人虽然看棒球，但是没办法像各位专家一样分析地钜细靡遗。尤其看到各位板友精辟的分析，本人更是自叹自知无法达到此境界。既然自身无法达到各位专家的境界，不如借群众智慧之力，试图在此间预测一二。
而群众智慧最精华最容易量化的所在，便是运彩赔率。不管是赌客的群众智慧，抑或精算师的心血结晶（当然，也有可能只是抄赔率的工读生？），众人为了将自己的利益最大化，无不绞尽脑汁做出最佳分析。本人即可奠基于此群众智慧，开始做进一步地分析。
方法：
本人主要的方法是机器学习(machine learning)。机器学习主要是设计和分析一些让计算机可以自动“学习”的算法：从数据中自动分析获得规律，并利用规律对未知数据进行预测。简言之，蒐集大量的数据，选择适当的feature及label，即可让机器学习算法学到两者间的关联。
以本人的方法为例，feature就是[客让分赔率, 客不让赔率, 主让分赔率, 客不让赔率]，label就是0或1（客赢为0，主赢为1。或是客让分赢为0，主让分赢为1。依照想要分析的结果而定）。
实作：
在本人刻苦耐劳手动将最近三个多月的比赛结果输入后，即得到一千三百多笔数据（本人对网站parser不太熟，欢迎板友提供协助）。
机器学习采用最常用的向量支持机（support vector machine, SVM），实作为台大之光林智仁教授的libsvm（主要支援MATLAB、Python）。
一开始得到的结果相当直观：在绝大多数状况下，都是选择赔率小的。此结论相当符合直觉，且在大量统计资料下的准确率大约为60%（大于50%，也就是比random guess好）。更准确地说，是使用了10-fold cross–validation验证机器学习的准确率，而准确率约为六成。
为了进一步增加准确率，另外使用了机率的结果：SVM可以透过资料点与support vectors建立出来的平面之距离，换算成机率。换言之，不只可以预测结果为1或0，更可以评估预测的可能性，这也就是我在po文中提到的过关率。所以最后我可以挑出可能性较高的几组，作为推荐的依据。
优点：
减少分析的时间。
缺点：
赔率变动会影响预测结果。
结语：
再次强调，这只是众多分析方式的其中一种。本人也只是利用闲暇时间，将自身所学使用在这个问题上面。希望可以提供大家一些不一样的分析方式。欢迎各位提供改良之建议。

楼主: freedom76912 (KHAKI) 2014-08-10 16:16:00

我有说啊近三个半月约1300场R大的机器人比较猛R大的上界推导可以指点一下吗不过我没有套在机率上啊？我是把赔率视为high-level feature

继续阅读

[棒球] 小冥灯大预测ko74652 [足球] 丁2wvotyyj5 [棒球] MLB冠军patron22 Re: [棒球] MLB 大数据时代freedom76912 [足球] JJa5372041 [篮球] WNBAblueseaman [足球] 足球0810boldt [问题] 话说今天的欧牛场fred1854 [棒球] 欧里NPBRobertHorry [问题] 因雨延赛问题!!CCAP

[棒球] MLB 大数据时代 分析方法分享

[棒球] MLB 大数据时代分析方法分享