虽然不是很想一直发有可能会引战的文章,但是这个讨论我觉得很有趣
所以我来试着解释一下我对于什么是简单,什么是困难
还有直接推广 FIPS 会遇到什么障碍的想法
: 推 nickyang:我想你刚好讲反了,BABIP之所以是障碍是因为你已经被ERA 06/15 04:27
: → nickyang:洗脑。对没有ERA观念的人来说,三振多保送少=强有什么障 06/15 04:28
: → nickyang:碍可言? 06/15 04:28
三振保送这部分我没有问题
但是我总会觉得投手强弱不只三振保送
像有人每打出很多很强劲的球 有人被打比较多小飞鸟滚
这些东西 FIP 没有计入,我不太知道原因
是因为 (1) 因为投手无法控制被打入球场的球的结果 (BABIP说)
还是 (2) 因为这对投手的表现没有解释能力或解释能力很弱?
如果答案是 (2),那 FIP 对新手来说又更难懂了(因为他要懂统计才能懂 FIP)
请看我以下的说明
: → nickyang:再则,很多参与这串的应该都不知道DIPS这三年进展很大 06/15 04:29
: → nickyang:如果你知道DIPS这几年的讨论,对老手的障碍已经几乎没了 06/15 04:30
: → nickyang:最后一样的问题,为什么讲到解释ER这么复杂又不合理的 06/15 04:31
: → nickyang:东西每个人都以为很简单,讲到三振多保送少=强每个人都 06/15 04:31
: → nickyang:觉得很复杂?三振多保送少不被尻炮就是好投手,多难懂? 06/15 04:32
: → nickyang:先忘掉你脑里的ERA,DIPS一点都不难懂 06/15 04:33
在说什么是简单/困难之前,我觉得要先把定义说清楚
SIMPLE 不等于 EASY, COMPLEX 不等于 DIFFICULT,这是首先要理清的一个命题
并不是玩文字游戏,请看以下的解释
simple 或 complex 衡量的是一件事情的 "复杂度"
就是说要操作这件事情有多难搞
easy 或 difficult 衡量的是一件事情的 "难度"
就是要理解它有多困难
当然有很多事是 simple and easy 或 complex and difficult,那大家都可以说
前者简单、后者难,轻易就可以结案
我觉得为什么 ERA vs DIPS 会论战这么久
而且明明知道 DIPS 就是比较好(解释能力强)的数据
ERA 在大众媒体(不包括做 sabermetrics 的专家)的地位却依然不动如山
关键就在于前者是 complex but easy,后者是 simple but difficult...
要搞懂 ERA 就要搞懂 ER,而 ER 的计算有很多奇怪的规定,不精准,没错
有时候还牵涉很多人为判断(怎样子叫失误?)
但是规定是可以穷举的,全部写在白纸黑字之后,就可以无脑地操作
而且这个规定经过多年修改,已经很详尽
所有场上的情形(先不论规定合不合理)都可以直接套用
规定可以很复杂,但是照着跑大家都可以做
而且 ER 是最基本的 counting stat,符合情形就加一
理解上很简单,会数数字就会,连小学都不用
其实,所有的传统数据都是 counting stats 或它的加减乘除衍生出来的东西
因为概念上好懂(easy),就是什么事情发生了多少次这样
仅管"什么事情"这个条件发生的规定可以很复杂(complex)
但是只要照着规定做,就可以做出来
也非常好解释、非常好传播,而且跟现在场上看见的事情 "直接相关"
所以比较好接受
那进阶数据呢?
很多都是统计分析的产物,包含很多 normalization 跟线性回归的概念
最后的产物可能很简洁(simple),比如说像 FIP 的公式
FIP = (13HR + 3BB - 2K) / IP + 3.1
本身不难,会小学算术就可以计算
但是背后的概念可比基本数据难(difficult)了不知道多少倍
你要让人能够真正理解这里面的东西,一定免不了要讲到一些统计的概念
这些概念我觉得就算再怎么聪明
没有国中以上的学力真的就是无法 get your head around it...
我觉得数据头们认为这些容易理解,是因为已经经过太多科学训练
这些概念已经深入心中,非常自然… nickyang 我猜你那位朋友也是学统计相关的?
但是大多数人接触棒球是什么时候?我想不会晚于国小
试试看跟国小生解释分布、回归?我想应该是解释不太通的吧
但是你跟他讲 counting stat,这边有一些奇奇怪怪的情形,符合就加一
他应该马上就可以懂了
而且上篇文章里战很大的,像为什么 HR 要乘 13 这种问题
你要解释 FIP 的时候绝对无法避免,要解释清楚一定要讲回归
那说起来就困难(difficult)了
就是因为理解上的 easy 让传统数据能先入为主
至于那些奇奇怪怪的条列情形合不合理?当然不合理啊
但是我觉得会不会去质疑它跟新手老手无关,跟个性有关
想要研究数字的人、坚持有更好的方法去理解比赛的人,就会问这些问题
我觉得说进阶数据比较好 没有疑问
但是说进阶数据对新手来说比较易于上手
那除非所讲的新手都是有一定学力的成年人,而且有良好的师父可以引进门
不然我真的觉得有问题