这个分析实在弱到我还去google了一下这作者的背景,除了这篇文章没有其他的东西,
大概是个业余的玩家刚刚接触回归分析感到我好兴奋写出来的
要做任何的统计分析一定要先回答两个问题,这个资料是连续性还是离散性,还有,
拜托,最基本的,先把分布看一下
第一点,球界认为身高是个决定投手成功与否的因素,但是球界是认为身高越高越好吗?
所有的球探都会告诉你,Pedro太矮,RJ太高,那有没有人会说Chris Sale是个比David
Price好的投手,因为他比Price高了一吋?
没有嘛,就根本没有人说身高是越高越好,所以这很明显不能用连续性的资料去分析,
都已经没有人说高一吋就好一吋了,你去证明高一吋没有好一吋是要讲给鬼听的?
真的要做应该是把,例如说6-0以下归一组叫过矮,6-1到6-6叫理想,6-7以上叫过高,
然后再去做这些分析嘛
第二点,我猜这个分析是做不出来的,因为95%的局数都是被中间那组吃掉,然后他取样
的年份很可能会被Pedro跟RJ这两个人污染很大。如果对第一点有正确的认识,然后记得
要先看一下样本分布,就会知道这样做根本是行不通的
他这个结果最多只能说在6-1到6-6这个理想身高的区间,高一吋并没有好一吋,很好啊
根本本来也没什么人这样想啊,值得做的是例如说6-1到6-3有没有比6-4到6-6更差,
同样的需要分层,大杂烩一样去跑回归是没有意义的
第三点,大联盟就是个偏差的样本,本来过高过矮门就比较窄了,可以挤上去的是偏差
值的机会很高,这个题目要做应该用上面那种分类法去做小联盟比较讲得通
然后翻译错很多,还有张冠李戴把根本立场相反的话冠在引用的人的头上的,真是相当
误导读者的一篇文章