Re: [战况]一朗 morikawablue PTT批踢踢实业坊

Re: [战况]一朗

楼主: morikawablue (morikawablue) 2006-06-11 03:14:17

※ 引述《demintree (Mirabelli's back in tow)》之铭言：
: ※ 引述《jacky77437 (遗憾~)》之铭言：
: : 一棒上垒率>速度>长打率
: : 中心打者长打率>上垒率>速度
: http://www.beyondtheboxscore.com/story/2006/2/12/133645/296
: A point of OBP is worth about .003 runs per game from the leadoff man (a .021
: increase in the leadoff OBP would be about .063 runs more per game or 10 for
: a whole season, which usually means about 1 win)
: 由上面的图表归纳可以猜测
: 对于第一棒来说OBP比SLG重要三倍
: 而对于中心打者的话
: #3 2.141/0.933
: #4 1.670/1.504
: #5 2.254/1.146
这篇文章的论调有很大的问题。
首先，SLG 的范围是 0 ~ 4，OBP 是 0 ~ 1，也就是说，如果用 pure 的数字
去做 regression model fitting 的话，你怎么算 OBP 的重要性都会大过 SLG。
讲明白点，各位觉得 OBP 增加 0.1 和 SLG 增加 0.1，何者较为简单？答案
应该很明显。
如果 OBP 与 SLG 加一个相同的量的难度是不同的话，那么用这两个数值去 fit
一个 model，然后用 model 的 coefficients (or say, slopes) 去评估所
谓的 "重要性"，这会不会有一点可笑？
第二点，这个作者用 retrosheet 的资料外加 18 个变量 (9 个 OBP + 9 个 SLG)
去跑一个 regression model，然后做出了那个表格当做结论，请问这是统计吗？
为什么这么问？因为这个 regression model 的资料 base on 多年的各队 lineup
资料，看起来这并没有什么 sample size 的问题，但我们必须思考的是：比方说
这里头做出的结论告诉你第一棒的 OBP 比较重要，第四棒的 SLG 比较重要，于
是你照着他的方法去安排你的棒次会得到什么结果？
很简单：新的棒次排列方式根本就不在原先这个 regression model 的规范之
内，这就像是我们统计东方人的身高与体重的关系，fit 出一个 regression
model，然后找一个西方人的身高代入这个 regression model 去求这个西方人
的体重，各位觉得这合理吗？
统计学不是这样的！这位先生的结论犯了一个很大的错误，他的 model 所做出
的结论应该只有这样：
1988 年到 2002 年的 ML "曾经做过的棒次安排" 显示一棒的 OBP 较重要、四棒
的 SLG 较重要....and so on。
以上翻译成白话文就是：那篇文章的 model 没有预测能力，只是一项 "普查" 结
果，所以这不仅不是一个好的 model，更不能说是一个正确的结论！
提到棒次，我们第一个该想到的是：每一个打者的上场打击都在所难免的和前一位
打者的结果多少有一点关系 (say, context...) 。那么我所想到的 approach 不
是 regression，而是一个 n-state 的 Markov Chain！至于 n 要订多少？这我
就不晓得了。
前一阵子那本叫 "The Book" 的书也有提到棒次的安排，他也是用 Markov Chain，
只是他们所用的方法是 9 个完全相同的打者在 Markov Chain 的 simulation 下
分别求出 outs、single、double、GIDP、HR....etc 等等打击结果的 Expected
Runs 然后看看这些 Expected Runs 在各个 batting order 下的表现，而
"The Book" 最后的结论是你的 1、2、4 棒要放上最好的打者；3、5 棒要放次好的
打者、剩下的依水准将较好的打者摆在较前面的位置...etc。
基于 "The Book" 的结果是用 9 个相同的打者去做打击结果的 Expected Runs 来
当做安排棒次的依据，这本书声称 Bill James 所谓的棒次不重要论是对的，但
在最佳化的结果下最多可以挤出 50 分来，你相信吗？
事实上，"The Book" 仍然犯了同样错误的结论，这是因为如果我们照着他的建议
去安排棒次的话，那就已经改变了整个 lineup 的 context，这时候，这些打击结
果的 expected runs 还会像他们书上写的那样吗？我不认为会。
我认为正确的做法是：如果我们找得到一个合理的 n-state Markov Chain，然后我
们再利用 18 个不同的变量 (9 个 OBP 与 9 个 SLG) 去找出 9! = 362880 种的
棒次安排方式下究竟何种在 "合理的" simulation 下会得到最多的分数，这才
会是我们讨论棒次安排问题应有的 approach，BP 的 James Click 所用的方法就比
较类似是这样，他的结论我提过了：OBP descending order 比 OBP ascending order
一季也不过多出 20 分，然后我们又得到一个无头公案：以 VORP 的结论，这 20 分
代表两胜；以 Win Expectancy 的结论来看，这 20 分搞不好有可能代表 20 胜。
Sabermetric 的研究里搞笑的文章是很多的，必须提醒的是：数字不会骗人，骗人的
是拿对自己有利或错误的数字做出结论的人；被骗的则是不懂数字的人。
然而，BP 的 Dayn Perry 在他的 Winners 一书中提到，利用 1871 到 2003 年各队
的 AVG、OBP、SLG 与 IsoP 去计算与球队总得分的 CR (相关系数)，得到的结论是
AVG：.828
OBP：.866
SLG：.890
ISO：.762
而 Clay Davenport 在他的 Create EqA 过程中也提到与 Perry 相同的结果，甚
至，Davenport 在他的 raw EqA (OPS 的修正量) 式子里隐藏了一个讯息：raw EqA
的分子其实是一种 "wild runs" 的估计，而 Hit、BB 与 Extra base 的价值相比
则是 2 : 1.5 : 1。
Billy Beane 不断的强调 OBP 的重要性是绝对没错的，但他的 moneyball team
在失去 Giambi 与 Tejada 两位较显著的 sluggers 之后，他们的 2nd-half rally
的效果似乎一年比一年降低，这如果只说是巧合，恐怕站不住脚吧？
总之：当垒上无人的时候，BB 与 Hit 的价值是相同的，但垒上有人时，一支 Hit
的效果是每一个角度都比 BB 要好的，这应该是直观到不能再直观的事实。
了解统计学家们的想法是好事，但相信这些作者的结论，则必须要有选择性。

作者: jshuang (guest) 2006-06-11 03:23:00

之前有篇 closer 该不该在九局上的研究也有您提到的问题

作者: nedbob (狗腿) 2006-06-11 03:30:00

打序的重要性可能要MLB全部的队伍把1-9棒做排列然后去比较看看是不是得到的分数差不多可以忽略

作者: nedbob (狗腿) 2006-06-11 03:31:00

又如果有差异那个队伍的打者是什么类型的组合

作者: nedbob (狗腿) 2006-06-11 03:32:00

又如果分数相差不大是不是因为9位打者能力差不多这样才有办法去探讨打序是不是很重要

作者: nedbob (狗腿) 2006-06-11 03:34:00

9位打者 N个队伍打几季共几场比赛为M 9!*N*M

作者: nedbob (狗腿) 2006-06-11 03:37:00

队伍打者组合类型又要不同要计算 9!*M*N

作者: nedbob (狗腿) 2006-06-11 03:38:00

这样才能够真正去探讨打序的问题

作者: nedbob (狗腿) 2006-06-11 03:51:00

如果要更精细 M跟N就要够大.......

楼主: morikawablue (morikawablue) 2006-06-11 10:19:00

又打错...wild runs 指的是 raw EqA 的分子...

继续阅读

Re: [战况]一朗morikawablue Re: [战况]一朗mirai51 Re: [战况]一朗CCLu Re: [战况]一朗mirai51 Re: [战况]一朗CCLu Re: [战况]一朗jamesppi [讨论] Hudson,Mulder and Zitodro001 James Handbook：使用快速球的比例setupman James Handbook：最慢的平均快速球球速setupman Bill James 的重要想法(6)Debugger