http://technews.tw/2017/11/25/sabermetrics-interview/
当资料科学遇上棒球,专访孙玉峰谈赛伯计量学
作者 黄 彦钧 | 发布日期 2017 年 11 月 25 日 12:00 | 分类 Big Data , 软件、系统
follow us in feedly
拥有高大篮球员身材的孙玉峰现在是云深创新股份有限公司研发总监,过去曾在中研院研
究生医影像的他,始终对资料科学有莫大的兴趣。孙玉峰曾经获选为微软最有价值专家(
MVP),同时也是台湾 R 语言社群的共同主持人。在 2017 年的台湾人工智能年会上,他
端出了“资料科学如何影响运动产业?认识赛伯计量学”这样有趣的题目,这一次科技新
报有机会请孙玉峰更深入地谈谈赛伯计量学。
被问到为什么会开始研究赛伯计量学,足球队出身的孙玉峰腼腆得笑着说,自己原先不太
看棒球的,顶多看看国家队比赛,是在约莫 5 年前学长的邀请之下玩起了梦幻棒球(
Fantasy Baseball),才开始了解美国职棒大联盟的球员,进而接触
Baseball-reference 和 FanGraphs 这类棒球数据网站,才正式踏入赛伯计量学的领域
。
赛伯计量学是什么?能吃吗?
赛伯计量学(Sabermetrics)又称作为棒球统计学,是一项从数据角度分析棒球运动的运
动科学,而要讨论赛伯计量学就不得不从棒球资料谈起。在棒球的古老年代只有纪录比赛
比数和安打数等基本的数据,到了 1858 年才由体育作家 Henry Chadwick 发明了分数盒
子(Box score),较完整的纪录各项比赛数据。有了数据才有可能有后续的资料分析,
让后来的赛伯计量学成为可能,而这一切的起点就是美国职棒大联盟。
美国职棒大联盟(Major League Baseball,简称 MLB)最早可以追溯到 1871 年国家联
盟成立,后来在 1901 年美国联盟成立之后,两边于 1902 年召开辛辛那提会议协商合并
,成为今日 MLB 的雏型。刚开始 MLB 也只有初步的棒球统计,缺乏更进一步的数据分析
,直到 1964 年 Earnshaw Cook 发表了 Percentage Baseball 这本书,才让世人了解用
数据分析棒球的潜力。Bill James 则在 1977 年开始撰写自己第一版的棒球摘要(The
Bill James Baseball Abstract),并每年出版直到 1984 年。这一系列的作品透过数据
提出许多新的论点,堪称是让赛伯计量学破茧而出并走向主流的关键,而 Bill James 更
是提出赛伯计量学这个名词的第一人。
▲ 赛伯计量学已经是棒球运动的显学,甚至成为波士顿大学教授在 Google 办公室的讲
题。
MLB 早已“上太空”
经过长久的发展,目前 MLB 已经有专业的数据蒐集者和资料蒐集仪器,精细到每一球从
出手到进垒的动态和轨迹都详细纪录。除了可以供赛伯计量学分析使用外,动态的轨迹也
能做运动力学的方面研究。MLB 主要是采用荷兰开发的 Trackman 系统,利用三支摄影机
做影像定位,追踪球的移动,可以记录投球和打击的轨迹和结果。这套系统原先是设计来
抓高尔夫球轨迹的,但现在每个大联盟的球场都有它的身影,甚至部分小联盟球场都有。
日本只有乐天金鹰和东京巨人主场拥有这套系统,台湾则是台体大棒球队所在的台中棒球
场有安装。
MLB 在 2015 年开始全面启用以 Trackman 系统为基础的 Statcast 系统,蒐集大量的测
量数据,可以更进一步了解球场上的状况。例如以系统即时算出守备时球员的跑动距离,
进而推估出该球员的守备范围,甚至利用球员移动时是否采取最短的路径来看出球员判断
球落点的准确程度。打击时系统会记录球打击出去的初速和仰角,投球时也会记录球速和
放球点等资料。
▲ Statcast 系统已经掀起了棒球运动的革命。
进阶数据看棒球
取得数据之后,赛伯计量学能进一步分析计算出可供参考的进阶数据。孙玉峰指出进阶数
据可以处理部分额外因素的干扰,会比传统数据更有效的衡量球员。例如在打者数据方面
,进阶数据场内被安打率(BABIP)是球打进场内形成安打的机率,能够了解打者是不是
纯粹因为运气而影响了打击表现,就能补足传统的打击率会严重受到守备状况和运气影响
的缺点;全垒打比飞球的比率则能了解球员的打击型态和力量。投手数据则有着 xFip,
只考虑全垒打、触身球、四坏球和三振的数据,因为这些数据不会受到守备因素干扰,能
比传统的自责分率(ERA)更精准地呈现投手控制比赛的能力。
孙玉峰也提醒有时不同的数据公司会对同一个数据有不同的计算方式,像是进阶数据中相
当重要的 WAR(Wins Avobe Replacement),能够总和打击、防守和跑垒各方面的贡献,
但各家公司给予的加权和算法就不一样,因此会出现同一个数据却不同数值的状况。他推
荐对棒球进阶数据有兴趣的读者可以逛逛 Baseball-reference 和 FanGraphs 这两个网
站,想要简单的了解球员和球员状况的变化都非常实用。
电影“魔球”上映之后引发了一股赛伯计量学的热潮,也让观众看见棒球场外数据派和球
探派的针锋相对。但孙玉峰认为两边不一定要是对立的,而是应该各取所需。就如同人工
智慧(AI)不是要取代人类而是帮助人类,数据也不是为了取代人类,而是为了补足人类
看不见的盲点。
▲ 电影“魔球”在 2011 年上映时引起了观众对赛伯计量学和奥克兰运动家队的兴趣。
球探的价值除了在于能观察投球或守备机制等细微的动作外,也能观察球员在场外的表现
和非比赛的行为。球探能借由对球队的喜好和队形的了解,进而针对球技和性格找出适合
自家球队的球员。但球探派很容易凭著印象去评断球员,而且可能因为球员在球探观察的
场次表现得特别好或不好,就决定球探对球员的判断。如果有了数据的辅助,就能够更完
整的了解球员,并处理掉极端的数据,降低失准的机率。因此透过球探和数据的相辅相成
,才能够为球队发挥最大效益。
球到底弹不弹?浅谈全垒打暴增的原因
至于受到球迷热烈讨论的“弹力球”问题,孙玉峰则认为可能和打者打击型态改变有关。
MLB 近年来掀起了飞球革命,打者偏好把仰角打高。尤其现在不像过去那么重视打击率,
只要上垒率够高就好,追求更多的长打和保送。当越多的打者越往这个方向发展,自然就
会造成全垒打数量的增加。
但孙玉峰也表示中华职棒全垒打满天飞的状况就比较难判断,因为这方面的数据中职属于
不公开的内部资料。即使曾经有教授做研究时取得了相关资料,但却发现内容有明显的错
误,或许可信度并不高。他认为如果要找出是不是因为球的弹力系数改变而造成全垒打数
量上升,可能可以比较球的飞行距离,是不是在不同季度有明显的差异。不过实作上因为
缺乏这方面的资料,很难真的确认。
▲ 就连 2017 年世界大赛也是全垒打满天飞,两队共打出破纪录的 25 支全垒打。
何时才能不只在“杀猪公”?
相较于 MLB 近乎黑科技等级的数据系统,中华职棒还被球迷戏称在“杀猪公”的阶段。
谈到中职的数据发展还需要多久时间才能追上美国,孙玉峰表示不敢肯定。毕竟目前只有
一些去过美国训练的球员和教练有将部分赛伯计量学的观念带回台湾,像是富邦悍将队的
总教练叶君璋和中信兄弟队的球探王金勇。
孙玉峰认为可以用美国的例子向球团或联盟说明赛伯计量学的价值,才能带动国内赛伯计
量学进一步的发展。例如从经营的角度切入,利用 WAR 去衡量一个球员比平均球员能多
带来多少胜场,而一场胜利可以带来多少球迷,球迷可以带来多少门票收入,最终算出一
个球员的商业价值和门票收益。藉著对球队相当重要的门票收入解释赛伯计量学可以衡量
球员的价值,帮助球队作出适当的交易或开出合理的薪资,让球团更愿意投资资料蒐集的
设备。
除了棒球以外孙玉峰也提到其他运动的资料分析,并指出不同运动的特性会影响资料分析
的能力。例如相对于棒球而言,篮球运动更容易被少数球员掌控,因此影响比赛的因素就
更少。因此篮球发展出一套四因子理论(Four Factors),利用投篮、失误、篮板球和罚
球四个要素建立模型,预测比赛结果。孙玉峰也以自身热爱的足球为例,和美式的回合制
运动不同,足球相较起来可以累积的数据就比较少,只能从一次次的传导资料去看。过去
曾有人研究西班牙甲级足球联赛豪强巴塞隆纳队的传球,纪录传球的轨迹与其他球队比较
后,发现巴塞隆纳队的传球模式相当特别,这也是后来闻名全球并帮助西班牙拿下世界杯
冠军的“Tiki-taka”战术
一起来算数据,看棒球!
如果对赛伯计量学心痒难耐,但又不知从何下手该怎么办?实际操作可以从资料和软件两
方面谈起。孙玉峰认为现在要投入这个领域已经比过去容易得多,以前要做分析要首先得
下苦功蒐集资料,如今资料取得已经相当容易。他个人推荐以 Lahman’s Baseball
Database 作为资料来源,这是一个由运动作家 Sean Lahman 所建立的数据库,内容包含
从大联盟创立以来保留的所有数据,不只相当完整,而且档案只有不到 100 MB。
▲ 孙玉峰邀请大家一起加入赛伯计量学的行列!(Source:孙玉峰)
目前市面上缺乏供个人使用的专业棒球分析软件,顶多供球团内部使用。孙玉峰表示其实
本身有在写程式的人就利用自己习惯的程式语言作分析即可,因为 Lahman’s Baseball
Database 可以存成想要做分析的格式,所以只要顺手就好。孙玉峰自己是使用 R 语言,
除了本来就习惯之外,R 语言也有不少现成的统计模型可以用。他也说还是习惯最重要,
甚至也可以用 Excel 做分析,只要会写公式会捞数据就可以了。
不过孙玉峰笑说开始学会棒球数据分析之后开始会对不专业的球评感到不耐烦,很容易就
会发现有些球评没做功课,对球员还停留在既定印象,而没有透过数据跟上球员最新的状
态。谈起台湾民间的赛伯计量学,孙玉峰乐观看待,认为有逐渐发展的趋势。他从演讲时
听讲的人数和提问的层次可以感觉到实际投入赛伯计量学的人数有所成长,未来甚至有机
会可以聚集同好举办小型的读书会或黑客松。相信假以时日,台湾的赛伯计量学也能成长
茁壮,让更多人能从数据观点享受这项迷人的运动。