Why Are Pitchers So Unpredictable?

楼主: uranusjr (←這人是超級笨蛋)   2006-09-26 00:44:01
发现实在太多篇了, 重新整理成一篇发一次, 抱歉 orz
===========
本文章除合乎法律之引用 (附上所有作者与出处) 之外, 严禁任何形式的
转录与引申. 违反者将保留任何法律追诉权.
===========
Baseball Between the Numbers 二章一节
为何投手如此难预测?
Keith Woolner 和 Dayn Perry
1973 年,Tom Seaver 比他前一年多投了 28 局,且将他的 ERA 下降了几乎整整
一分。他的胜场数掉了两场。1998 年, Roger Clemens 拿到了美联赛杨奖。隔
年,他度过了生涯中最糟糕的球季。同样在 1998 年,Tom Glavine 以二十胜与
2.47 的 ERA 拿到了国联赛杨奖。1999 年 Glavine 只赢了 14 场比赛,ERA 爆
增至 4.12。还是 1998 年,Randy Johnson 在西雅图拿到 9-10 与 4.33 ERA 的
成绩。在季中被交易到休士顿后,他的成绩是 10-1 与 1.28 ERA。
这些有趣的事件全指向一个数据分析家与主流意见共声赞同的声明;投球表现难
以预测。事实上,比打击难多了。
这个现象有两个原因。首先,成功投球所允许的错误范围较小,投球的动作很要
求体能且会产生耗损。其次,我们用来衡量投球表现的数据具有瑕疵,使投手必
须负担不在自己影响范围的因素。
投球的要求
投球动作是很要求细节的运动。看来不起眼的因素可以戏剧性地影响投手的表现,
例如,他踏在投手板上的位置、他把手肘抬到多高、他的手套手在发射动作中如
何移动、他的臀部转动多少、手指在球上的位置、轴心脚的动作、自由脚落地的
情况、最后的完成动作、和头部在发射时的稳定性。一张相交相织的精巧网络,
为了成功投出一球必须完全整齐。
但能丢出不同种类不同速度的各种球路到各个角落,只是挑战的一部分。投手必
须把这个步骤不断不断重复稳定地完成。并且,他在动作中必须不给打者线索、
不使自己受伤、或失去他诱导的能力。连续动作中,任何一个瑕疵都会导致无效
或失败。著名的洋基投手 Don Larsen 只在使用了不挥臂的姿势后才获得成功。
未来名人堂成员 Randy Johnson 直到 Nolan Ryan 帮忙调整一些机制后才能压制
整个联盟。传奇的勇士(现金莺)投教 Leo Mazzone 以修改投球机制与比赛中的
小幅调整,拯救了数不清的投手生涯。
然而即使允许的失误如剃刀般细微,高压投球的姿势本身就违反自然。这是个破
坏性的动作,对肩膀与手肘的消耗极大。鲜少有投手能在不经大手术的情况下,
拥有长而成功的生涯。即使伤病不会让投手长期作壁上观,或者让他得挨下手术
刀,也仍然会对表现造成影响。烦人的肌腱发炎或所谓的“手臂疲劳”,常常代
表在投手丘上的成效降低 - 虽然随着时间,投手的手臂可能获得休息而重新恢
复。由于投球所需的精确性,对方打者攻击弱球的能力,以及投出棒球所造成的
受伤危险,特定投手未来的路如此难以预测便也不足为奇。
胜败纪录
接着,我们使用数据来衡量投手的表现。投手最主要的目标,便是为球队赢得比
赛。因此对许多球迷而言,衡量先发投手成就的最主要方法便是他的胜败纪录。
任何值得尊敬的投手必须胜多于败,而二十胜球季便是到达“绝佳”的里程碑。
然而赢得比赛有两个面向:让自己的球队得分,及让你的对手得不了分。理论上,
投手只能影响这个等式的一半,即防止对方得分。但由于防守在阻止得分上占有
重要的地位,投手事实上只能影响比一半少一些的部份。国家联盟的投手可能会
得到一两个打击机会来帮助得分,但他们通常在打击上的不适任性只是使队友的
负担加重;美国联盟投手,感谢指定打击规则,则根本没得上场打击。
投手需要来自队友的得分来帮忙赢得比赛。但每个投手得到的得分支援有相当大
的不同,即使身在同一球队。举例而言,Jeremy Bonderman 和 Nate Robertson
2005 年同属老虎队。Bonderman 在 29 次先发中投了 189 局,ERA 4.57,Ro-
bertson 则先发 32 场,投 196.7 局,ERA 是略好的 4.48。但他们得到的得分
支援完全不同。Bonderman 得到平均每场 5.67 分的支援,而 Robertson 则平均
每九局只能以 3.66 分的支援挣扎。结果呢?Bonderman 拿到一个正面的 14-13
成绩,Robertson 则是比五成低了九场的 7-16。
此外,先发投手的完投次数比起一百年前要少。现今少有投手能在超过百分之二
十的先发中完投。牛棚出发的其他投手会完成他开始的比赛,而球队胜负的机会
经常取决于中继投手的运气。中继投手可以维持先发投手交来的领先,或败掉完
成胜场的机会。他们可以拯救在紧张情势中留下垒上跑者的先发投手,或者让这
些跑者回来得分,让已经退场的先发承担败战责任。中继投手也能在球队落后时
登场,在场上支撑到己队成功反击,或者让先发投手逃过应得的败战。胜败场数
的给予对球赛中投手本身表现无法影响的因素依赖很重,使得胜败纪录与胜率无
法成为投手表现的有效指数。
责任失分率
虽然传统界仍然过度使用胜败纪录,棒球界其实很早就了解到只依赖这项资讯的
问题。为了把投手得到的得分支援影响麻烦去除,人们便创造了责任失分率,以
独立计算投手本身预防失分的能力。这是个进步。在打击不佳球队中的好投手可
能胜败纪录很惨,但仍可以拿到很低的 ERA。最著名例子之一发生在 1987 年,
Nolan Ryan 的 ERA 是领先国联的 2.76,但只拿到 8-16 的成绩。
ERA 的纪录降低了队友的影响,但并未去除。的确,进攻对投手的影响被消去了,
但牛棚的影响仍然存在,投手可能离开比赛时在垒包上留下跑者。如果接任的中
继干得很好让跑者成为残垒,先发投手就可逃过一劫而维持他的 ERA。但若中继
让他们得分,这些继承跑者所造成的失分便要算在前任投手身上,即使这并不该
完全怪他。
把所有失分都看得一样重也有问题 - 一场比赛中,所有的分数并非等值。掉第
十一分比起掉第四分的伤害较小,因为当你已经掉了十分的时候,你大概已经把
比赛输掉了。然而 ERA 把每个失分都同等对待。十次出场中的一次失常可能会在
投手的 ERA 上产生不适当的影响,即使他在剩下的九次中表现都非常好。九次投
七局掉两分而一次投三局掉十分的投手,依他的 ERA 会拿到(根据毕氏胜率方程)
.574 的理论胜率,约比他身处平均攻分能力球队可期待的 .594 胜率,要低了两
个百分点。一场爆炸所造成的负面影响对他的 ERA 影响过大,对他的整体成绩不
利。
中立支援数据
为了处理“分数不等值”问题,Baseball Prospectus 创造了一系列的中立支援
数据。不像一般位置球员,先发投手参与的球赛很少,但在比赛中几乎完全参与
所有的守备运作。投手的表现是连续面对打者的一个系列,这个打席的结果直接
建立下个打席的状况。在该时刻,投手对比赛的责任比场上任何其他人都重;对
成功与错误的承担都该反应这项事实。但同时,不论他在这场比赛的表现多好或
者多糟,投手最多也只能制造一胜或一败。若他失掉二十分,他的 ERA 会像火箭
般升空,但在战绩上纪录的只会是一败。
中立支援数据是设计来同时处理这种单场比赛的状况,以及进攻与牛棚的支援可
能有很大不同,且在先发投手直接控制能力之外的事实。这系列中最基本的成员
是“中立支援胜”(SNW,Support-Neutral Win):给定投手主投的局数、他离
场前失掉的分数、以及当时垒上留下来的跑者,一支具平均攻分及平均牛棚能力
的球队获胜机率是多少?“中立支援”这个名字来自于我们移除,或说中和了不
同等级攻分支援和牛棚支援的变因。一支平均程度打击的球队可能在先发投手主
投七局无失分的状况拥有八成五的胜率,那么这个状况就值 0.85 SNW。“中立支
援败”(SNL,Support-Neutral Loss)就是相反 - 一支平均球队在先发投手完
成一定状况后输球的机率。刚刚七局无失分的纪录就等于 0.15 SNL。随着球季的
进行,投手的“中立支援胜负”(SNWL,Support-Neutral Win-Loss)纪录便是
每场先发 SNW 与 SNL 的总和。这可以得到投手表现好坏的更好指标,不受进攻
与牛棚支援的影响。投手在比赛中投得越长,失分越少,他能拿到的 SNW 就会越
高。
“中立支援价值和”(SNVA,Support-Neutral Value Added)衡量投手的表现比
平均(.500)高多少。在我们的单场 0.85 SNW 例子里,投手的 SNVA 是 0.85 -
0.50 = 0.35 SNVA。也有其他,例如不比较投手和平均的差距,而比较和取代水
平(replacement level)的差距,或者依对手打击强度调整概率的延伸。在中立
支援数据系列中,最容易理解的数据是“中立支援打线调整取代水平差价值和”
(SNLVAR,Support-Neutral Lineup-agjusted Value Added Above Replacement
Level)。2005 年,Roger Clemens 拥有领先全联盟的 9.4 SNLVAR,意指他比一
个边缘的取代水平投手,在面对相同打者状况下,可以帮一支平均水准球队多拿
下 9.4 场胜利。(更多有关取代水平的讨论见五章一节。)
再谈 ERA
咱们回到责任失分率和它背后的另一个目标。ERA 尝试将投手的表现从他身后的
野手中独立出来,只在先发投手有“责任”时才把失分算在他身上 - 亦即,分
数并非由野手的失误造成。虽然立意甚佳,责任与非责任失分的概念却有问题。
失误率在过去几十年内已大幅下降,而守备率则来到或近于历年最高。现代比赛
中野手守备差距更多来自于范围与站位的差别,而非是否容易失误。Andruw Jones
能简单移动接杀的飞球对 Bernie Williams 来说会落在无人地带,轻松形成二垒
安打。失误和守备率无法合适地掌握投手身后守备员的不同品质。因此,用失误
来区分失分责任属于投手或野手并不值得信赖。
失分率
失分率(RA,Run Average)常被用来取代 ERA,以去除责任与非责任失分间歧异
所造成的误导。这看来像是更退一步,甚至不试着区分投手与野手的表现。然而,
我们若了解被测量的是整个防守的效率(投球加守备),这就更合理了。预防失
分就是预防失分,分数的责任谁属并不影响球队的胜负。如我们将看到的,分离
投手与野手表现,有比使用不完全且扭曲如 ERA 的数据更好的方案。
ERA 和 RA 都有关于连续打击事件上的问题。当安打与保送连续发生时,分数进
帐会多于它们分散于球赛各时刻的状况。这是因为,除了全垒打之外,进攻球队
需要一系列的成功打击才能把分数送回本垒板。两位被安打数、长打、总保送数
皆相同的投手可能失掉不同的分数,因为安打与保送的分布状况不同。但那基本
上是随机的,因为投手在被安打或投出保送时,自己并不存在显著的控制能力。
周边 ERA
为了突破密集安打的问题,我们可以使用投手的“周边数据” - 他被安打、投
出保送、三振、与全垒打的基础比率 - 来组合成一个“期望”的 ERA 或 RA。
这被称作“周边 ERA”(PERA,Peripheral ERA)。(传统在这个名称上使用 ERA
而不是 RA,虽然两个版本的概念都一样适用。)本质上,PERA 便将投手纪录中
密集安打的成份调整符合平均。被打出不寻常密集安打的投手在被检视周边数据
时,高度密集产生的状况会降低,而投手若被安打与保送分散,他的 PERA 则会
提供更标准的密集状况检视。
PERA 将投手的周边比率合成一个一般球迷可辨认及解读的数字 - 他应得的 ERA。
PERA 只使用投手的被安打率、保送率、全垒打率、以及三振率,是在预测未来球
季上比 ERA 更好的工具。它是对投手表现好坏的更真实反应。在计算 PERA 时,
其中一个比率便是投手的被安打率。但除了全垒打外的安打,都是由打进场内的
球所形成。守备这些球的工作几乎总是落在其他野手的身上,而因此队友守备的
表现也会反应在投手的被安打率上。我们稍早曾经碰过这个议题,并驳回了责任
失分的概念,因为那并没有办法适当地纪录队友守备范围地影响。即使是投手的
周边数据,尤其被安打率,也不真正是投手表现的真实指标。
防守独立投球数据
那么要怎么把投球和守备分离呢?对被打入场内的球而言,整个流程包括球被投
手投出,离开打者的球棒,以及进入野手的手套。这一系列的连续动作过程不过
数秒,也不像局与局、打席与打席、甚至球与球之间之间那样,动作有所间断。
多年来,将投球与守备之间的关联区分显得不可能,直到 Voros McCraken 在两
千年初提出一个革命性的理论,使棒球分析界吹起一股风暴。
McCracken 表明,打者打入场内的球,与投球的投手之间几乎没有关联。测量场
内球形成安打的频率,即称作“场内球打击率”(BABIP,batting average on
balls in play)的数据,便将投手与守备员作为一个整体,显示他们承担基本守
备责任,即将场内球转为出局数的能力。比较同队,因此与相同的守备队员搭配
的投手,便有可能估计投手对 BABIP 有多少影响力,而又有多少是守备的责任。
结论令人震惊。投手的素质与他的 BABIP 似乎毫无关联。联盟中最好与最差的
投手都可能有很高的 BABIP。举例来说,2005 年,经常是赛杨热门人选的 Roy
Oswalt 拥有 .310 BABIP。魔鬼鱼队平凡的 Doug Waechter 则是 .308。全垒打
制造机 Eric Milton 是 .317,而一线先发 John Lackey 则拿到了 .328。二流
投手 Scott Elarton 的 BABIP 是 .274,而正崭露头角的新星 Jake Peavy 则
是 .281。
并且,这还不是一年的偶然。好与坏投手在每年的 BABIP 排行榜上,常分散在
清单里头。此外,投手在各时间的排名高低完全没有稳定性。同一位投手可能
一年在名单顶端,隔年则在垫底附近。同样的投手可能看着他们的 BABIP 逐年
产生吓人的震荡。McCracken 得出的必然结论即是,投手对被打进场内的球形
成安打或出局的控制能力令人惊讶地小 - 事实上,小到几乎可以在初步估计
中忽略。如果球被打进场内,则发生的状况几乎完全取决于野手,而非投手。
虽然球队的守备相较之下在球季间较为稳定,对单独投手的防守支援则会疯狂
且随机变化,造成投手 BABIP 的混乱结果。
要说这个结果与直觉相违,或者难以相信,都是太保守的说法。面对 Pedro
Martinez 所打出的球和面对 Jose Lima 时几乎毫无差别(除了打过大墙的那
些)?在 McCracken 将他的结果向一些媒体,包括 Baseball Prospectus 网
站提出后,他的结论被详细地全盘检查,并主要被同意。不幸的是,他发现大
众化的版本成了“投手无法影响被击入场内的球”。虽然这在表达上很简明,
却不完全正确 - 这个陈述在棒球新闻界关注 Michael Lewis 的 Moneyball
同时,擦出一道不必要的火光。不管曲解与危言耸听,这结果的本质 - 投手
对 BABIP 影响力非常小,而比起逐年守备的差异性,这个影响重要性不高 -
已被证明正确,且被分析界普遍接受。现在甚至在主流如 ESPN 的网站上,都
能看到 BABIP。
一个新的投球测量法,也从这个研究中起头。防守独立投球数据(DIPS,de-
fensive-independent pitching statistics)是将守备员影响从投手表现中移
除的更进一步。消除所有一般包含其他守备员的结果,非三振的出局数、以及
非全垒打的安打,我们便只剩下三振、保送(包含触身球)、以及全垒打。与
周边 ERA 类似,DIPS ERA 在只给定三振、保送、和被全垒打率的状况下,估
计投手在身后有平均防守时该有的 ERA。但 DIPS ERA 比 PERA 更“纯”,因
它更从计算法中消去了 BABIP 所造成的随机性。(更多有关 DIPS 的讨论见三
章一节。)
成份性的投球比率
当然 DIPS ERA 本身就是更基本成份:三振率、保送率、和被全垒打率的合成了。
在投手拥有最大影响力的结果上,这三项比率可视为投手表现的基准。这是投手,
以及他在比赛中能不受野手、攻击支援、与密集安打等影响而控制之能力的最纯
正样貌。
但其实,我们还没真正结束 - 还能再做一个小小的改进。投手的被全垒打率中
也有一些外部因素。投手似乎可以控制球被打到地上或空中。但球会被打多远,
或者会直击大墙还是场内落地,就取决于其他因素了。具优势的天气和风的状况、
球场的形状、打击者的力量、以及其他因素使被全垒打率会在年与年之间变动,
而不如直接看投手的整体滚地球与飞球倾向。这个面向与我们已经看过的数据不
同的地方在于,它并不反应球场上的真实事件 - 出局、安打、保送、和胜利 -
而是与这些事件中某些相关的一个特点或性质。滚地一垒安打与飞球一垒安打没
什么不同。牺牲高飞与二垒滚地所造成的得分也价值相等。但在了解投手表现好
坏方面,这是一个有用的差异,所以让我们用滚地球比例来取代被全垒打率。
这三个成份数据 - 三振率、保送率、以及滚地球比例 - 反应了投手工作中基
本的重要能力:找到好球带的能力、让打者打不到球、以及把打者打到的球留在
地面上。在这个层级,这些数字都与投手队友们的进攻与防守表现独立 - 投手
必须负担全部的责任。它们也是年与年之间最可靠且稳定的投球数据:事实上,
这些成份数据和打击数据一样可靠。
投球数据的可靠性
对投球表现的传统测量无法提供准确的描述。投手可能交出与前季同等质量的表
现,但若身后的守备员变差、无法得到同等的进攻支援、或只是被打安打的时机
不佳,这些传统数字就会看起来不同。你必须看得更深,才能发现投手并未改变。
其实,变的是环境。
描绘这一点的另一个方法是看看年与年间不同投球数据的稳定性。说得更清楚点,
我们可以看看某年与下一年同样数据值的相关性。相关性的范围是从 -1 到 +1。
数值越靠近 +1,则该数据在年与年之间就更具稳定性与可预测性。接近零的相关
性显示年与年之间并没有一致性。接近 -1 的相关性则显示该数值会跳动 - 某
年的高值暗示隔年会有低值。表 2.1 观察从 1972 至 2004 之间所有在连续两年
面对 500 人次以上打者,并计算我们本章讨论的不同投球数据在年与年之间的相
关性。
表 2-1.1 投球数据的年与年相关性
================================
年与年
数据 相关性

Links booklink

Contact Us: admin [ a t ] ucptt.com