※ 引述《morikawablue (morikawablue)》之铭言:
: ※ 引述《demintree (Mirabelli's back in tow)》之铭言:
: : http://www.beyondtheboxscore.com/story/2006/2/12/133645/296
: : A point of OBP is worth about .003 runs per game from the leadoff man (a .021
: : increase in the leadoff OBP would be about .063 runs more per game or 10 for
: : a whole season, which usually means about 1 win)
: : 由上面的图表归纳可以猜测
: : 对于第一棒来说OBP比SLG重要三倍
: : 而对于中心打者的话
: : #3 2.141/0.933
: : #4 1.670/1.504
: : #5 2.254/1.146
: 这篇文章的论调有很大的问题。
: 首先,SLG 的范围是 0 ~ 4,OBP 是 0 ~ 1,也就是说,如果用 pure 的数字
: 去做 regression model fitting 的话,你怎么算 OBP 的重要性都会大过 SLG。
: 讲明白点,各位觉得 OBP 增加 0.1 和 SLG 增加 0.1,何者较为简单?答案
: 应该很明显。
: 如果 OBP 与 SLG 加一个相同的量的难度是不同的话,那么用这两个数值去 fit
: 一个 model,然后用 model 的 coefficients (or say, slopes) 去评估所
: 谓的 "重要性",这会不会有一点可笑?
这篇文章不算是好文章,不过从这一点批评他可笑太严苛了。原作的出发点
是从 OPS 里面给予 OBP 和 SLG 1:1 的权重,而这两者增加 1 pt (0.001)
对于 OPS 的影响是相同的。
从这里该文作者 Cyril Morong 做出同样增加 1 pt 的 OBP 和 SLG 对于实
际 R/G 的影响不同的结论,认为同样增加 1 pt 时 OBP 影响比 SLG 大。这
是大家都知道的事情,也因此有许多 stathead 或是 front office 在用数字
评估球员时给予 OBP 比 SLG 更大的权重。
他这里其实并没有说错,因此也不能说他可笑。
: 第二点,这个作者用 retrosheet 的资料外加 18 个变量 (9 个 OBP + 9 个 SLG)
: 去跑一个 regression model,然后做出了那个表格当做结论,请问这是统计吗?
当然是统计,不管好或不好,他用的是 regression analysis,这个没有疑
问。我们可以从几个方向去看他做的是否合理:
1. 模型设定
2. 资料
3. 结果的解释
虽然资料都可以找的到,不过 14 年 28-30 支球队的数据要整理还是要花
不少时间。我懒得自己跑这样的东西,所以我没有办法做比较明确的批评,
只能提出一些大概的方向。
原作者应该受过统计的训练,但是文章中报告出来的方式并不够严谨。连
最基本的 R^2 都没有,实在很难判断这个模型到底表现如何。就我自己的
经验来看,也许在这种数目的样本点和解释变量数目下会 fit 的还不错。
他后面检查 multicolinearity 倒是记得谈 R^2,不知道这里为什么没有。
对于这一类没有理论支撑的模型我们永远会质疑为什么要设定这样而不是
用其他的函数,不过线性模型由于其简便性在讨论时最容易使用,所以倒
也不必这样去挑剔他。
我看到第一个表格时进入脑海的第一个问题是 "multicolinearity",这一
点是我判断作者有一定的训练的缘故,最起码应该是修过大学部的计量之
类的课程。根据作者的谈法这一部份影响不严重,他用的方法在这里是合
格的。要做的更严谨一些当然可以,不过影响不大。
另外一个问题是资料本身的时间序列性质。这个研究里蒐集了 panel data
却直接把资料 pool 在一起使用,也许在 cross-section 方面问题不大,
不过我对于资料本身的 stationarity 有些疑问。在 1992 前后棒球的得分
平均起来相差了 0.6 R/G 左右,这一点 AL 和 NL 都类似。而在 1999 年
前后 NL 有个短暂的 spike,R/G 忽然从 4.60 左右跳到 5.00 又掉回来,
这个看起来比较像是 random 的结果,不太像前面那个看起来像是一个结构
性的改变。绝大部份的棒球统计研究在处理回归变量时都没有把 regime
change 考虑在内,所以也不能就这一点来责怪作者。他也只是跑一个简单
回归式而不是写论文,所以不能就这一点把他给否定掉。我会希望看到更清
楚的说明,起码谈一下式子的残差项是否满足 white noise 的要求,应该
会更有帮助一些。
当然我们可以在变量选取上吹毛求疵,不过这会陷入 data-mining 或是
model-mining 的问题,最后不见得会比这样一个简单模型能够给我们更多
资讯,倒不需要坚持下去。
: 为什么这么问?因为这个 regression model 的资料 base on 多年的各队 lineup
: 资料,看起来这并没有什么 sample size 的问题,但我们必须思考的是:比方说
: 这里头做出的结论告诉你第一棒的 OBP 比较重要,第四棒的 SLG 比较重要,于
: 是你照着他的方法去安排你的棒次会得到什么结果?
: 很简单:新的棒次排列方式根本就不在原先这个 regression model 的规范之
: 内,这就像是我们统计东方人的身高与体重的关系,fit 出一个 regression
: model,然后找一个西方人的身高代入这个 regression model 去求这个西方人
: 的体重,各位觉得这合理吗?
: 统计学不是这样的!这位先生的结论犯了一个很大的错误,他的 model 所做出
: 的结论应该只有这样:
: 1988 年到 2002 年的 ML "曾经做过的棒次安排" 显示一棒的 OBP 较重要、四棒
: 的 SLG 较重要....and so on。
: 以上翻译成白话文就是:那篇文章的 model 没有预测能力,只是一项 "普查" 结
: 果,所以这不仅不是一个好的 model,更不能说是一个正确的结论!
这里是解释上的问题,而不是模型完全错误。这些参数是假设其他东西不
变,改变一单位的某特定解释变量对于被解释变量的影响。
从这里我们不能这么快跳到这个模型没有预测能力的结论。它可能没有,
不过不是这样子来看。就以东方人和西方人身高体重的比喻来谈,我们必
须要看下面两件事情:
1. 东方人和西方人在身高与体重的关系上是否有结构性的不同。大家都
知道东方人和西方人外表看起来不一样,但是身体结构是否不同?
2. 我们找的这个西方人的样本点跟原来的回归式所用的样本点比较是否
是一个极端值 (outlier)?
如果这两个答案任一为是,那么我们最好不要用原来的回归式做任何预测。
否则的话仍可一试。
回到前面棒球的模型来,这是一个静态模型,跟 Markov chain 可以做出
动态模型是两回事情。后者应该会较好,但是前者也并不是不能用。
除非我们是在选择明星队或是玩一个玩家人数远少于真实世界队数的
fantasy baseball,否则我们最后选出来的队伍实际水准不会比联盟水
准差太多,样本点多半不会是太离谱的极端值,所以那些回归参数或多
或少仍有参考价值。
如果我们拿明星队套入那个模型中,由于每一个棒次都超过两联盟平均水
准不少,在棒次后端甚至会超出原来样本点的范围很多,回归式最后的
fitted value (R/G) 准确度会很低。不过如果只是一般球队的话,并不
太需要担心这样的问题。
另外在解释估计出来的参数时,把它们彼此拿来比较会很危险,因为我们
常常忘记这些并不是刻在石板上的数字,我们只有这些数字的分配。原文
作者在这里表现还好,他只谈了少数的几个棒次,并没有试图用这个模型
来决定棒次应该如何排列。
: 提到棒次,我们第一个该想到的是:每一个打者的上场打击都在所难免的和前一位
: 打者的结果多少有一点关系 (say, context...) 。那么我所想到的 approach 不
: 是 regression,而是一个 n-state 的 Markov Chain!至于 n 要订多少?这我
: 就不晓得了。
用 Markov chain 会比较实际一些,可以从出局和推进一到四个垒包(共
五个 states)出发,玩到多一点就是像 Diamond Mind Baseball 那样的
设计。
: 前一阵子那本叫 "The Book" 的书也有提到棒次的安排,他也是用 Markov Chain,
: 只是他们所用的方法是 9 个完全相同的打者在 Markov Chain 的 simulation 下
: 分别求出 outs、single、double、GIDP、HR....etc 等等打击结果的 Expected
: Runs 然后看看这些 Expected Runs 在各个 batting order 下的表现,而
: "The Book" 最后的结论是你的 1、2、4 棒要放上最好的打者;3、5 棒要放次好的
: 打者、剩下的依水准将较好的打者摆在较前面的位置...etc。
: 基于 "The Book" 的结果是用 9 个相同的打者去做打击结果的 Expected Runs 来
: 当做安排棒次的依据,这本书声称 Bill James 所谓的棒次不重要论是对的,但
: 在最佳化的结果下最多可以挤出 50 分来,你相信吗?
: 事实上,"The Book" 仍然犯了同样错误的结论,这是因为如果我们照着他的建议
: 去安排棒次的话,那就已经改变了整个 lineup 的 context,这时候,这些打击结
: 果的 expected runs 还会像他们书上写的那样吗?我不认为会。
我在看到 The Book 说把 1、2、4 放最好的打者这个结论时我也有类似
的疑问,不过我没有时间看那本书,所以不敢下结论。
这个问题似乎太明显了,不太可能被忽略掉的。
由于没有看过那本书,有些东西无法讨论,不过 50 分的差距怎么样也
不能支持 Bill James 的棒次不重要的说法。这是大概 5 场胜场,对于
一个球季来讲是很大的差距。如果这真的是那本书里面的结论,那么他
们互相矛盾了。
: 我认为正确的做法是:如果我们找得到一个合理的 n-state Markov Chain,然后我
: 们再利用 18 个不同的变量 (9 个 OBP 与 9 个 SLG) 去找出 9! = 362880 种的
: 棒次安排方式下究竟何种在 "合理的" simulation 下会得到最多的分数,这才
: 会是我们讨论棒次安排问题应有的 approach,BP 的 James Click 所用的方法就比
: 较类似是这样,他的结论我提过了:OBP descending order 比 OBP ascending order
: 一季也不过多出 20 分,然后我们又得到一个无头公案:以 VORP 的结论,这 20 分
: 代表两胜;以 Win Expectancy 的结论来看,这 20 分搞不好有可能代表 20 胜。
: Sabermetric 的研究里搞笑的文章是很多的,必须提醒的是:数字不会骗人,骗人的
: 是拿对自己有利或错误的数字做出结论的人;被骗的则是不懂数字的人。
: 然而,BP 的 Dayn Perry 在他的 Winners 一书中提到,利用 1871 到 2003 年各队
: 的 AVG、OBP、SLG 与 IsoP 去计算与球队总得分的 CR (相关系数),得到的结论是
: AVG:.828
: OBP:.866
: SLG:.890
: ISO:.762
果有人有书在手,这一部份数据出自 Winners P.13。
这是我对于 Moneyball 这本书有意见的原因之一。Michael Lewis 及许多读者
把 OBP 无限上纲了,这个数据比 AVG 重要,但市场上重视的是 AVG 而不是
OBP,所以有些球员会被 over/under-priced,而这给了 Billy Beane 套利的
空间。但是这并不代表 SLG 就不重要。
样本点的选取很重要,我自己以前跑过一些球季的经验是 OBP 的确在某些年
份重要性会高过 SLG,这一点跟 Dayn Perry 的结论不同。不管哪一个比较高,
SLG 高的球员通常在市场上也都得到充分的注意,他们没有人会被 under-
priced,所以这不是 Moneyball 哲学下有套利空间的对象。但是无论如何不
能说 SLG 不重要。
我最近在写 blog 时就批评 Melky Cabrera 的 power 太差,即使他有不错的
OBP 也不够,那不足以让他在 corner OF 位置生存。那个批评背后的逻辑就是
从这里来的。
: 而 Clay Davenport 在他的 Create EqA 过程中也提到与 Perry 相同的结果,甚
: 至,Davenport 在他的 raw EqA (OPS 的修正量) 式子里隐藏了一个讯息:raw EqA
: 的分子其实是一种 "wild runs" 的估计,而 Hit、BB 与 Extra base 的价值相比
: 则是 2 : 1.5 : 1。
: Billy Beane 不断的强调 OBP 的重要性是绝对没错的,但他的 moneyball team
: 在失去 Giambi 与 Tejada 两位较显著的 sluggers 之后,他们的 2nd-half rally
: 的效果似乎一年比一年降低,这如果只说是巧合,恐怕站不住脚吧?
其实不至于。失去 Tejada 之后他们次年得分并没有下降,2004 成绩比 2003
差主要是差在投手,不是打击。Jason Giambi 2001 年的产量是难以取代的,
他们也的确没有在 2002 年得到比 2001 年更多的分数,但是他们事实上赢得
场次更多。Giambi 的重要性同时存在于 OBP 和 SLG 两部份,用他来作推论不
太容易。Tejada 的重要性不在 OBP,是个比较好的对象,不过从有他和没有他
两年来比较其实并不能做出什么结论来。
: 总之:当垒上无人的时候,BB 与 Hit 的价值是相同的,但垒上有人时,一支 Hit
: 的效果是每一个角度都比 BB 要好的,这应该是直观到不能再直观的事实。
: 了解统计学家们的想法是好事,但相信这些作者的结论,则必须要有选择性。