※ 引述《tzaumin (.......)》之铭言:
: 我不懂的是,A对C与B对C是一个相对性的比较是没错
: 但是拿A对C与B对C比较的结果再做比较
: 却是一个绝对性的比较了,不是吗?
: 换一个说法好了,若有错请指正
: A算法对C问题,得到了80%的增益
: B算法对C问题,则得到了75%的增益
: 所以我们应该可以说在C问题上
: A算法"100%"比B算法好,不是吗?
: 请各位赐教
Ichiro 是一个统计上的 outlier,这一点 Nate Silver 在 04 年他破
Sisler 的单季安打纪录时层经提过。
当时 Silver 计算了 04 年的 PA% resulting in BIP 与 BABIP 的
Leaders 与 Trailers,基本上 ML 打者的趋势是 PA% resulting in BIP
如果为领先者,BABIP 就很可能是车尾者;反之,PA% resuling in BIP
若为车尾者,BABIP 则倾向领先者。
04 的 Ichiro 则是一个巨大的 outlier,他在 PA% resulting in BIP 是
Top 10,BABIP 也是 Top 10。换句话说,像 Ichiro 这种选手用 Nate 的
PECOTA 去 Figure 的话就不适用。
Nate 承认他怀疑 Ichiro 在 04 年的确是有点 lucky,但他表示他会利用
冬天来修改 PECOTA 的 approach 以 "对付" 像 Ichiro 这种人。这才是
统计学家应有的态度,而不是把 BABIP 完全推给运气,而做出类似 "等到
BABIP 的 regression mean 出现,Ichiro 就会烂掉" 的奇怪结论。
话说回来,Ichiro 究竟有多好?如果你考虑他用掉的出局数加上他的 VORP,
他的确没那么 decent;如果考虑 Davenport 的 EQA (有点像 OPS 的修正量
再加以 scale),去掉 Ichiro "幸运" 的 04 年,他仍然维持在 .280 以上
的水准,甚至比 Johny Damon 更好,与 Derek Jeter 相近;如果再加上守
备的因素考虑 WARP,那么从 Ichiro debut 的 01 年起算,别说 Damon 和
Jeter 赢不了他,Manny Ramirez 和 Gary Sheffield 反而都没他那么好,
当然,A-Rod 是比他好,而这时候,我们已经用到全联盟最好、最高薪的球
员的名字来 beat Ichiro 了。
Ichiro 是不是个好的第一棒?Bill James 告诉大家:棒次的安排没有这么
重要,重要的是你有没有 "用对人" 而已;James Click 告诉大家,用 OBP
descending order 排棒次可以得到最高的得分,而用 ascending 得的分数
虽然最低,但两者相差只有 20 分,然后你可以继续用 Expected Runs
或 Runs Created 与 Win Expectancy 去做 clutch 方面的 argue,最后发
现毫无结论,因为这两种东西不是同一个 base 下的产物。
统计学错了吗?当然不是这样的,数字不是 zero-sum game,它不会骗人,
会骗人的是拿对自己有利的部份来証明自己的推论的人。不同的 base 做出来
的结论就是很可能产生平行线。
至于拿数字来说明谁该入选 ALL-Star,我认为这是不必要的行为。Dodgers 的
SS Izturis 在 05 年就有入选,他的 jersey 在 Dodger Stadium 还卖得不
错,也是 LA 的 beloved player 之一,但身为 DePodesta 的拥护者,我
晓得 Izzy is MF suck!So what?Fans 想看到 Izzy 进 All-Star,而他
们也办到了,事情就这么简单!All-Star 如果都只是选择真正表现好的球员
,又何必开放 Fans 去投票呢?
也因此,我同意在 Fans 不能参与的部份、像是 MVP、Cy Young Award、HOF
等等应该由 sabermetric 介入,但是如果连 Fans 介入的 All-Star vote 都
要用 sabermetric 来衡量,那实在不很有意义。
Ichiro 究竟有多好?或者究竟有多烂?那些 Old School 的 manager 的 comments
或许不值得一提,但如果看数字,这问题就端看你用 "哪一种角度去检视了"。
记住一点:数字不会骗人,骗人的是只找自己有利的部份去做推论的人;被骗的
则是不懂数字的人。