[棒球] MLB 大数据时代 分析方法分享

楼主: freedom76912 (KHAKI)   2014-08-10 15:54:02
前言:
每个人都有不同的分析策略,就像股票市场有基本面、技术面、筹码面、消息面等等。只要是这种充满太多不确定性的游戏,参与者都只能在众多的假设之下,将问题简化后迳行解决。本人的方法绝对不是最佳解,但是CP值应该还不错(不用花太多时间),欢迎各位提供改良之建议,也诚心希望有网站parser的高手可以合作。
假设:
本人虽然看棒球,但是没办法像各位专家一样分析地钜细靡遗。尤其看到各位板友精辟的分析,本人更是自叹自知无法达到此境界。既然自身无法达到各位专家的境界,不如借群众智慧之力,试图在此间预测一二。
而群众智慧最精华最容易量化的所在,便是运彩赔率。不管是赌客的群众智慧,抑或精算师的心血结晶(当然,也有可能只是抄赔率的工读生?),众人为了将自己的利益最大化,无不绞尽脑汁做出最佳分析。本人即可奠基于此群众智慧,开始做进一步地分析。
方法:
本人主要的方法是机器学习(machine learning)。机器学习主要是设计和分析一些让计算机可以自动“学习”的算法:从数据中自动分析获得规律,并利用规律对未知数据进行预测。简言之,蒐集大量的数据,选择适当的feature及label,即可让机器学习算法学到两者间的关联。
以本人的方法为例,feature就是[客让分赔率, 客不让赔率, 主让分赔率, 客不让赔率],label就是0或1(客赢为0,主赢为1。或是客让分赢为0,主让分赢为1。依照想要分析的结果而定)。
实作:
在本人刻苦耐劳手动将最近三个多月的比赛结果输入后,即得到一千三百多笔数据(本人对网站parser不太熟,欢迎板友提供协助)。
机器学习采用最常用的向量支持机(support vector machine, SVM),实作为台大之光林智仁教授的libsvm(主要支援MATLAB、Python)。
一开始得到的结果相当直观:在绝大多数状况下,都是选择赔率小的。此结论相当符合直觉,且在大量统计资料下的准确率大约为60%(大于50%,也就是比random guess好)。更准确地说,是使用了10-fold cross–validation验证机器学习的准确率,而准确率约为六成。
为了进一步增加准确率,另外使用了机率的结果:SVM可以透过资料点与support vectors建立出来的平面之距离,换算成机率。换言之,不只可以预测结果为1或0,更可以评估预测的可能性,这也就是我在po文中提到的过关率。所以最后我可以挑出可能性较高的几组,作为推荐的依据。
优点:
减少分析的时间。
缺点:
赔率变动会影响预测结果。
结语:
再次强调,这只是众多分析方式的其中一种。本人也只是利用闲暇时间,将自身所学使用在这个问题上面。希望可以提供大家一些不一样的分析方式。欢迎各位提供改良之建议。
楼主: freedom76912 (KHAKI)   2014-08-10 16:16:00
我有说啊 近三个半月 约1300场R大的机器人比较猛R大的上界推导可以指点一下吗不过我没有套在机率上啊?我是把赔率视为high-level feature

Links booklink

Contact Us: admin [ a t ] ucptt.com