※ 引述《gto1814 ()》之铭言:
: 其实就投手来讲,真的有所谓“本身的”东西吗?
: 很少吧!投手不是一个人独自在投球阿
: 投手本身的成绩是各种因素汇整出来的结果吧
: 这种“Neutralize”的情况实际上存在吗?
: 不可否认,这种统计计算方式能算出一定的东西,但它是否过于假设一些理想
: 或是不存在的状况?
我分两个部分来说我的感想好了。
首先,Neutralize的情况实际上存在吗?是否过于假设一些理想或是不存在的状况?
我想,如果你花一点时间到Baseball Reference的网站去看一下他的说明,就可以明
白这个问题的答案。网址:
http://www.baseball-reference.com/about/equiv_stats.shtml
里面就有提到,他们所做的调整包括了:调整为中性球场数据、调整为 162场比赛的
数据、投手自责分调整为失分的 90%、每队得分调整为 750分。看完这些调整,你就
知道这些在现实生活中不可能发生。你的疑问正是他们的目的,他们就是要假设一些
理想的情况。你应该问的是,为什么要这样做?
老实说,因为我这个人数学能力很差,以前虽然学过一点点初级的统计、微积分什么
的,但通通还给老师了,所以我没有办法去说评论说他们那样做对还是错,计算过程
还是公式有什么问题,所以我只是提出我看到他们说明的之后的看法,大家可以来讨
论看看。
假设这些理想甚至不存在的状况的原因很简单:想办法让所有人站在同一个基础上面
。之所以要这些数据,就是要提供一个比较的基础,如果每个人都只是说“我觉得”
的话,是比较不出什么结果的,当然,身为一个球迷,有时候只是一种热情,即使自
己欣赏的选手实力不是顶尖,也还是一样热情的支持。但是有很多情况之下不能只是
凭著这种热情,举例来说,经营一支球队就是这样。
假设今天我的球队二垒有个洞要补,我能随便从 Robinson Cano或Dustin Pedroia
里面选一个吗?这时候数据的功能就在于提供一个比较的平台,帮助球队经营者做出
最有效益的决策。(这里我们就先跳过数据派跟球探的争论,从单纯数据的观点出发
吧 = =)
我们先不要管实际的公式是否有用,只讨论他为什么要做这些假设,大家都说 Todd
Helton的成绩可能因为他过去几年都在一个极端的打者球场出赛而有灌水的嫌疑,调
整为中性球场之后的数据,就可以让他跟其他打者站在同一个基础上面做比较。大家
都说王建民有洋基打现在他后面帮他撑腰,好,那现在就把他跟其他要比较的人都通
通丢到一支162场比赛打750分的球队去,这样就可以看看在支援分一样多的情况下,
谁的预估胜场数多,这样不管说王建民靠打线还是靠自己的人都没得说嘴,只要大家
同意默认的前提跟计算方式,就可以站在同一个平台上讨论。事实上,BR的说明网页
就列了一个投手计算的范例,有兴趣的可以参考一下。
上面是回答,“Neutralize的情况实际上存在吗?是否过于假设一些理想或是不存在
的状况?”这个问题,我的看法是,就是要做这样的假设才有对话的空间。
好,如果你是一个对数据没什么兴趣,甚至可能看到数据就反感的人,却还是看我屁
到这边的话,希望你继续看我屁下去,有可能会改变你的看法。
就我所知道,大部分的“数据派专家”们不会告诉你他们是万能的,他们做出来的东
西就一定是对的,事实上,很多数据头都会承认自己的极限。
1900年,一个德国数学家 David Hilbert提出了23个当时数学界难解的题目,其中有
许多对后来的数学发展有重大的影响,这二十三个问题人称Hilbert's Problems。而
在2000年的时候,数据派重镇之一 Baseball Prospectus发表了棒球界、或者说棒球
数据界的Hilbert Problems。我举几个例子:如何将投球与守备分离、如何估计队友
之间防守的影响、如何计算捕手在防止失分上的作用、如何评估转换守备位置的影响
、如何评估小联盟投手的发展......等等。我们可以看到这里有一个重点,数据派正
试图将守备与投球分开。
你提到:
: 其实就投手来讲,真的有所谓“本身的”东西吗?
: 很少吧!投手不是一个人独自在投球阿
: 投手本身的成绩是各种因素汇整出来的结果吧
举例来说,DIPS(独立于防守之外的投手数据)这个理论试图做的就是将投球跟守备
的数据分离,希望能让所有投手站在同一条线(不考虑守备好坏)上来做比较。这个
理论假设被全垒打、三振、保送、触身球是属于投手能力,这些数据与守备无关,而
被打入球场中的球是否形成安打则和守备相关,而投手对其影响相当的小或者根本没
有,所以在这个理论中将相关数据排除。
但是这个假设不是没有被检讨过,至少就我所知,有一派说法是,你需要长时间的大
量数据(至少七个球季以上)才有办法验证该投手对于打入球场中的球是否会成为安
打有无影响力。我并不清楚验证的方法,也不到所谓的影响力到底是怎么样的影响,
提出这个只是要说,当你丢出一个理论出来,也就是提供其他人验证这个理论的机会
,会有更多聪明的头脑去考虑各种可能的方向。我没有看过哪个真正的数据派专家说
自己丢出来的东西一定是对的,一定可以解决所有的问题,我看到的是许多理论一再
被验证、被改良。真正的数据派在使用数据时是非常小心的,在使用数据前,会设法
让他的对象跟他站在同一平台上,提供必要的资讯,在解读数据时,有几分证据才说
几分话,立论严谨不夸大。
我一直提到“真正的数据派”,就代表了有假的数据派,所谓假的数据派就是,抓了
一个数据,就斩钉截铁的告诉你一定是怎样,或者是出于有意或无意的错误解读数据
,甚至可能对于他们提出来作为立论基础的数据一知半解。
举一个最简单的例子,一个几年前默默无闻,现在好像家喻户晓的数据:OPS
OPS = OBP + SLG (下面为了计算方便,假设触身球跟高飞牺牲打为0)
= (安打+保送)/(打数+保送) + 垒打数/打数
= ((安打+保送)*打数 + 垒打数*(打数+保送))/(打数*(打数+保送))
好,谁告诉我((安打+保送)*打数 + 垒打数*(打数+保送))/(打数*(打数+保送))代表
什么意义?当你拿这个数据出来比的时候,你是在比什么东西?如果你回答不出来,
是不是应该回头想想,你使用、解读这些数据的方式是否错误了?
其实我想说的只是,看球有很多方式,你可以单纯享受棒球比赛本身的魅力、看投捕
手跟打者之间的对决、看野手完成一次又一次的精彩守备,没有人说非看数据不可。
只是,如果你花一点时间去了解数据,也可能会有不同的感受。
至于常常拿数据出来的人,应该要好好想想,自己这样丢一个数据出来代表什么意义
?当你丢数据出来的时候,你的目的是讨论或者只是想证明自己是对的?你是否抱着
正确的态度与方法去解读与使用数据?你是不是了解各种数据可能存在的限制?当你
面对一个对你提出来的数据毫无所知的人,而他提出疑问时,你能够好好说明吗?当
你想说服别人之前,能先说服自己吗?
真正的数据派,因为了解到目前数据的许多限制,表现出来的应该是谦逊而非傲慢。
这是我的观念,如果有什么错误的地方,欢迎指正。