Re: [讨论] DIP, LOB%, shift

楼主: kylechen (kyle)   2015-06-03 23:26:58
※ 引述《nickyang (肌腱炎者少打字)》之铭言:
: 想写这个很久了,刚好在话题上
: 这几年有越来越多人在用FIP,也看到有人开始讲LOB%,shift是一个比较新的趋势
: 但是也值得了解。棒球统计这一块美国人做得相当透彻,台湾很讽刺的是球迷对这
: 块的了解往往比球团还要多。我认为这有两个原因,第一是球团没有动力。美国棒
: 球统计的发展跟MLB 的产值是高度相关的,赢不赢球差几千万镁,那当然愿意投资
: 了。台湾现在的趋势看起来像是球场经营比赢球重要得多,所以球团缺乏动力投入
: 不管是棒球统计还是训练或球探也是很自然的事情。
: 第二是语言跟资讯的门槛太高,受过高等教育的球迷比起科班出身的教练球员吸收
: 新知的能力跟管道都强上许多。这一点倒是可以透过翻译跟介绍逐步改变的。
: 先讲DIP,DIP是Defense Independent Pitching的缩写。根据DIP 的理论设计出来
: 的数据,叫做DIPS,Defense Independent Pitching Statistics 。要再提醒一次
: 要用DIPS,要先知道DIP 在讲什么,就像是如果连失分跟责失分都分不清,又怎么
: 能正确使用ERA?
: DIP 的起源在1999年Voros McCracken首先提出BIP ,Balls in Play,打进场内的
: 球—投手是没有能力控制的。McCracken十六年前的这个论证从根本上改变了整个
: 大联盟的生态。我个人认为,尽管他在质量上的产出不如诸如Tango等作家,而且他
: 的理论也得到很多后续的修正,但他是这二十年整个MLB 趋势最大的推手。
: 要知道投手有没有能力控制一件事情,一个最核心的验证方法是年与年之间的相关
: 系数,Year over Year correlation。如果一样数据是一个投手的能力,是这个投
: 手可以掌握的变量,那么它年复一年应该要高度相关。
: Matt Klaassen在2013年做过1955-2012/ 2002-2012一系列投手数据的相关系数表格
: http://0rz.tw/RdTst
: 看看这两个表格,找找亮点在哪。三振,保送,滚飞比,这些是投手相对可以控制
: 的部分。LOB%,BABIP,ERA,WHIP 就是拿来垫底的。换句话说,这几个数据是整体
: 来看投手相对没有控制能力的数据。LOB%是高是低,多数投手没办法控制,所以CC
: 的投手可以高度控制的三振,保送都没有巨幅的衰退,LOB%却远远掉到联盟平均线
: 以下,几乎可以断言他今年至今确实很衰(LOB%后详论)。
: BABIP,Batting Average on BIP,也就是球被打进场内后形成安打的机率,你也可
: 以看到多数的投手几乎是没有能力控制的。这是为什么CC拿到CYA那年的BABIP跟他
: 减肥后球速成绩都狂掉的2013年几乎一样。因为不管是有威力的CC还是没了球速的CC
: 球打进场内之后会不会变安打几乎是纯粹的运气。
: 为什么没有人像我们板友一样,这么聪明到拿同一年的各式数据去跟ERA 做回归呢?
: 第一我们很清楚得看到,ERA 会高还是低,跟一个投手的能力关系相较其他数据小得
: 多,至于为什么,不妨从ER的定义去想一想,ER本身是个丝毫经不起逻辑检验的数据
: 第二,当你知道同一年度的WHIP后,到底为什么还需要回归去求同一年度的ERA 呢?
: 都已经拿着温度计在手上了,还到处收集湿度辐射风速去测量温度,到底是什么样的
: 天才逻辑呢?
你讲的这些 绝大部分都是正确的
但是你完全搞不懂 之所以要作这些数据的核心精神
就是为了预测未来投手失分上会有什么表现
每个球队 要派一个投手上场 只有一个问题而已:
"他比其他投手更能帮我减少失分吗?"
失分包含了自责跟非自责
排除非自责失分的数据就叫做ERA
为了这个问题 数据分析派试图找出各种指标来分析
但如同你所说的 就因为棒球场上运气的成份很大 许多指标都包含了运气因素
所以这并不容易
正因为你目前看到的ERA可能无法代表该投手的真正实力
所以你想要预估他真正的ERA
并期待他未来ERA会朝该方向修正 所谓的未来 包含下一场 下一周 明年 后年..
正因为这样 所以FIP故意设计成跟ERA一样的型式
正因为这样 所以每年球季结束 联盟的平均ERA会跟FIP完全重合
正因为这样 所以fangraph才会再FIP那一个数据上 加注跟ERA的差距
方便使用者预估在FIP体制下 该投手ERA会下修还上修
FIP本身开发的精神 就是用来预测投手未来的ERA
本身的精神 是一个投手在背后拥有平均防御水准的球员帮忙 运气不好也不坏
应有的ERA
摘录如下:
Fielding Independent Pitching (FIP) measures what a player’s ERA would look
like over a given period of time if the pitcher were to have experienced
league average results on balls in play and league average timing
这也就是为什么他的公式理面 会有一个联盟平均constant 随每年变动
结果被你讲成完全没关系的两件事....
你完全搞错的是 投手未来的ERA是我想要预估的"结果"
为了作预估 可以用WHIP 可以用FIP 你喜欢的话用K BB HR 都可
但不论是用哪种预估法 接下来就要问了
"该指标跟ERA的相关性如何"
我已经秀给你看了 FIP跟我们想知道的投手未来ERA 相关性很有限
也就是说 就算我用水晶球告诉你一个投手明年的FIP是4
依照他们的相关性 你大概只能说这投手的ERA明年会落在 2-6之间
妈呀 这是什么样的预测啊? 可能是个赛扬 也可能是只pollo?
这种程度的预测 我测球员的八字也可以得到相同结果勒
这也就是为什么我说看FIP不如看WHIP (相关性较高)
但是WHIP有他的致命伤在 不过我既然支持他 当然是不会讲出来
也希望你能够找出他的致命伤 来攻击我的论点
这才叫做讨论
FIP为什么如此不准
你知道吗 一个投手低于三成的失分来自于被全垒打
相对于被安打还有其他因素的失分 被全垒打是较小样本
因为安打运气因素太高 就整组砍掉
试图用小样本去解释整体行为 怎么会有好结果呢?
还有 你有看当初DIPS的原文吗?
投手未来被安打 跟现在被安打照相关系数来看是低度相关
被全垒打呢? 0.4
好啦 很勉强算中度相关啦 因为0.39以下才算"低度相关"嘛
即便你把安打失分整组砍了 只算全垒打失分
得到的FIP也一样参杂了满满的运气
却引进了新的噪声 就是我一直提到的 有些投手被全垒打失分较多 有些较少
最后结果是什么 你也看到了
: 在McCracken发表他的研究结果,提出投手无法控制BABIP,进而排除BABIP可以更准
: 确的评估一个投手的能力之后,最大的质疑者来自棒球统计界的祖师爷Bill James
: Bill James在十六年前,就像某些人在十六年后一样不相信被打进场内的安打投手
: 不能控制。但是在两年的研究之后他公开的承认他找不出任何反驳的方法。
: 前面提到McCracken的登高一呼根本上改变了MLB 的趋势,这十六年来DIP 已经成为
: 棒球统计界评估投手的主要方法。原本他宣称的BABIP不受投手控制也得到一定程度
: 的补充跟修正。我列出我觉得比较主要的几个
: 第一是FIP,Feilding Independant Pitching,Tango 根据BIP不被投手控制的精神,
: 用三振保送跟全垒打回归出来的公式。所以就像有人举例的,一个连续被打五支一垒
: 安打失分的投手,跟一个被打两发阳春砲的投手,前者FIP 会是零,后者会直冲云霄
: 很不直观对吗?很不公平对吗?对棒球统计执著如Bill James一开始也不肯相信。但
: 是BABIP的结果摆在眼前,多数投手的的确确是不能控制,换句话说,不管是Kershaw
: 还是我们队上的那个不叫Chris的今年炸得很惨的木匠,如果连续被打进场内五球,
: 会不会都变成安打而失分那是跟丢骰子没两样的事情。
: 况且,就像板友提到的得分跟打击率间并非线型函数(其实应该用上垒率,但我觉
: 得讲出线型函数四个字已经很让人感动了),连续五支安打的机率有多低呢?真的有
: 投手惯常的被连续打五支安打吗?如果连BABIP高成这样的今年的CC都还没被连续五
: 支安打过,我们真的不用怀疑被连续打五支安打只是带赛而已吗?
你也不须要用五只安打的case来掩护你对这方面的认识不够了
连两支安打 R就是一个非线型函数了 我前几篇文章提的就是两支安打的CASE
怎么 一局出现连两支安打 照你来看 也只是带赛而已了 对吧?
期待你秀出数据来 告诉我们你伟大的LOB% 线性论
我都帮你想好名字了 就叫 8/10-80/100 定理 如何?
还有 我原文题到的 R是靠不断的上垒来的 而不是打击率 你可以去看看
不要再栽赃了 (不用太感动喔)
: 又,其实换个角度看,怎么样的投手会连续被打进场内五球呢?是每三个打席会三振
: 掉一个人的Kershaw连续被碰到五球的机会大,还是我们队上的那个不叫Chris的今年
: 炸得很惨的木匠机会大?所以很会三振人的投手评价高,三振不掉的人投手评价差,
: 这难道不直观吗?
: 有些人对DIP 的精神有很深的误解,以为DIP 跟延伸出来的DIPS是要把BIP的结果都
: 赖给守备(要赖也是赖给运气吧!)但真正了解像Tango 怎么处理DIPS就知道,DIP
: 不是傲慢的把不能解释的东西“赖”给其他因素,而是谦虚的“只处理有把握处理的
: 部分”(题外话,这是为什么我认为投手的fWAR比bWAR好得多的原因。)
我同意 如果你硬要把话说得好听一些 就是你说的那样
说的难听些 就变成我说的那样了
DIP的精神 我前面已经讲过了 不再此重复
: 也因为如此,DIP 的研究一直在想办法去解释那些还没有把握处理的部份。
: 第一个重要的补充,是滚飞比。前面的表格我们可以看到,滚飞比也是投手最能控
: 制的数据之一。进而,滚球跟飞球成为安打的机率有显著的不同,所以我们知道滚球
: 跟飞球各自有多少机率形成安打,我们知道投手滚球跟飞球的频率是相对稳定而能控
: 制的,所以诞生了SIERA。同样是根据“只处理有把握的部分”这样的原则,把滚飞比
: 放进公式里。
: 但是我不认为SIERA尽管有更多的变因,就是个比FIP好的数据。固然滚飞比是投手更
: 能控制的结果,但是滚飞球各自形成安打的比例呢?
: 第二个重要的补充,是前年在MIT的数据大会上被提出的内野高飞球IFFB。注意原本的
: BIP的定义,是指打进场内的球会是安打还是出局,跟守备有关,跟运气有关,是不能
: 根据投手的能力预测的。但是IFFB,在这个定义下其实跟其他的BIP不一样。在职棒这
: 个等级打出内野高飞球几乎一定会被接杀,跟运气跟防守几乎没有关系。所以如果一个
: 投手可以稳定的制造内野高飞球,那么原本的FIP就会低估他控制比赛的能力。
: 第三个重要的补充,是xFIP。从前面的YOY corr表格我们可以看到飞球的比例是投手
: 相对可以控制的,但是HR/FB却不是。所以跟SIERA类似,xFIP把HR/FB (注意不是FB%)
: 替代成联盟平均值重新计算FIP。但也因此这跟SIERA有类似的疑虑。
: 另外有一些必须小心的部分。FIP 跟所有的DIPS都承认自己只解释能够解释的部分,
: 所以不能解释的部分,是不是一个投手的能力,严格来说那是未知的。从整体来看,投
: 手没有能力控制BIP,但那是不是代表没有个别的投手可以控制?那是不知道的。在IFFB
: 被注意到以前,大家以为Matt Cain是那个例外。现在我们可以解释他了。但是还是有像
: Tom Glavine这样的例子,有人尝试提出好球带之类的解释,但还没有共识。
: 任何以过去预测未来的方法,首要的前提是环境要稳定。如果明年球换了,投手丘变
: 高了,或者像是联盟转换,这都会破坏原先的假设。举例来说,BIP的观察是不管垒上
: 有没有人,对于BABIP不会产生显著的差异。但那是对MLB 的等级而言。会不会在某个
: 小联盟野手经验不够,特别容易紧张而犯错呢?会不会某个投手的固定式比开放式威
: 力差距之大足以影响打者击球的难易度呢?
: 这种针对整体的结论要应用到个别的球员身上的时候都需要格外的小心。这是为什么
: 我不认为可以光用FIP或者xFIP去断言CC现在的成绩单纯只是运气不好。有没有可能他
: 现在的投球型态就是BABIP会比别人高?这是有可能的,但至少现在没有人能提出有说
: 服力的解释。
: 那该怎么办?
这段我非常同意你的说法
: 有人一直在棒球板质疑整天说样本太小,那是不是样本太小就不用预测了?这个问题
: 的答案其实很简单啊,样本都这么少了,你就看球啊XD CC的前三场球在洋基球场右
: 外野被打了两支过墙,在绿色怪物被打了一支过墙,这三球在任何其他球场都只会是
: 小鸟飞(顶多一支变二垒安打),不过就是三场比赛,你有看球的话还需要什么FIP
: 来告诉你他失的分很冤枉吗?当样本大起来了,慢慢人脑记不住所有play了,那也差
: 不多是可以用数据来看的时候了。
: 其他的之后再谈。
其实你指的例子就直接证明了我的论点
FIP砍掉安打失分的部分直接原因就是因为认为安打的运气成分太高
问题是全垒打也是满满的运气 所以得到的帮助很有限
再加上飞球/滚球投手被打全垒打的机率不同 对FIP更是雪上加霜
全垒打相对于安打 就是个小样本 也许CC今年只会被打30只HR
3只已经是10%
十年后你回来看CC 讨论他的FIP
有谁还会记得 他那三只运气不好的被全垒打?

Links booklink

Contact Us: admin [ a t ] ucptt.com