[讨论] 用简单的统计模型来看得分

楼主: ddtddt (得)   2011-07-18 15:17:25
LM模型: Runs ~ Hits + HR + BB + SO + SB + LOB + GIDP
Summary
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.57802 0.56442 -2.796 0.010534 *
Hits 0.83505 0.07197 11.603 7.57e-11 ***
HR 0.45883 0.15011 3.057 0.005781 **
BB 0.67218 0.08538 7.873 7.70e-08 ***
SO -0.01054 0.03427 -0.308 0.761327
SB 0.08393 0.10157 0.826 0.417501
LOB -0.47437 0.10059 -4.716 0.000105 ***
GIDP -0.67690 0.15199 -4.453 0.000199 ***
Multiple R-squared: 0.9718, Adjusted R-squared: 0.9628
首先,这结果告诉我们,用以上这些参数来估计所得分数可以估的相当的准确。
这些各样打击数据,几乎可以解释97%会得多少分的影响。
安打,HR,获得保送,如常识所知的会提高得分。
盗垒多会增加多一点点的得分,三振多则会使得分少一点点,不过影响都不明显。
安打、HR、保送对分数的重要性,我配了另外一个模型为了避免共线性
安打 : HR : 保送 对分数影响的比重为 1 : 2.4 : 0.7
残垒多的球队会使得分减少,双杀更是明显的影响着得分,
大约每次双杀会使得得分少得0.6分。
最后则是来看看各队的期望得分与实际得分。
RS/G 期望RS/G 分数差 名次差
BOS 5.355 5.324 0.030
NYY 5.152 4.981 0.171
TEX 4.938 4.869 0.069
TOR 4.708 4.826 -0.118
CIN 4.705 4.712 -0.007 +1
STL 4.663 4.747 -0.084 -1
ARI 4.495 4.619 -0.124
NYM 4.436 4.500 -0.064
COL 4.432 4.418 0.014 +1
DET 4.411 4.458 -0.048 -1
CLE 4.387 4.281 0.107 +4
MIL 4.375 4.405 -0.030
KC 4.358 4.401 -0.043
PHI 4.266 4.188 0.078 +2
TB 4.237 4.405 -0.168 -4
BAL 4.109 4.290 -0.182 -2
ATL 4.074 4.133 -0.059
CHC 4.042 4.014 0.028 +1
CWS 4.021 4.077 -0.056 -1
FLA 3.989 3.961 0.028
PIT 3.968 3.886 0.081 +1
MIN 3.914 3.874 0.040 +1
HOU 3.884 3.787 0.097 +2
WAS 3.853 3.665 0.188 +3
ANA 3.813 3.918 -0.106 -4
LA 3.674 3.806 -0.132 -2
SF 3.656 3.713 -0.057 -1
OAK 3.490 3.346 0.143 +1
SD 3.344 3.370 -0.026 -1
SEA 3.189 3.225 -0.036
作者: Edison1174 (Edison)   2011-07-18 15:19:00
祭死尸打线
作者: ckevint (Can't live w/o music)   2011-07-18 15:21:00
推一个 刚刚有看到:P
作者: jarr2610 (嘘累累)   2011-07-18 15:22:00
蓝鸟第四名 分区也第四名QQ
作者: Gwendaline (米)   2011-07-18 15:29:00
倒数6名全部集中在西区 国美西区火力到底有多弱啊...
作者: jacky1990b   2011-07-18 15:39:00
水兵硬是落后倒数第二快0.16分左右..干得好orz
作者: searoar (暗坑大豆)   2011-07-18 15:41:00
第一面看不懂
作者: Yukirin (いい天気!)   2011-07-18 15:44:00
这模型几个问题: 1.截距项的负数怎么解释? 这跟Y为1 0的机率模型一样,我们无法理解Y小于0是什么样的情况。
作者: Yukirin (いい天気!)   2011-07-18 15:46:00
2. 怕共线性的话,把H拆成1B 2B 3B HR丢进去更好,还可以
作者: Yukirin (いい天気!)   2011-07-18 15:47:00
解决HR的系数比Hits还小的不直观结果(要理解HR的得分期望是Hits+HR也是挺麻烦的)
楼主: ddtddt (得)   2011-07-18 15:49:00
只是简单的模型,就像把分数当常态,但不会有负和超过一百
作者: Yukirin (いい天気!)   2011-07-18 15:49:00
3.LOB放进去的意涵是什么?前面的东西都可以解释成因果关
作者: Yukirin (いい天気!)   2011-07-18 15:50:00
系,但得分跟LOB是同时发生的"结果"。Sorry 我认真了
楼主: ddtddt (得)   2011-07-18 15:51:00
第一个模型纯粹用来估计一个队伍的平均得分用。:)一些简单的短评有另设模型,LOB并不在其中:)
楼主: ddtddt (得)   2011-07-18 15:52:00
谢谢你的comments :)
作者: dickyman (屌面人)   2011-07-18 16:00:00
天气姐姐的统计蛮牛的( ̄ー ̄;)
作者: AWEDS (骑帅不骑快)   2011-07-18 16:01:00
喜欢这种文章~
作者: jojo2147 (d(_._)b)   2011-07-18 16:05:00
推,那请问分数差代表意义是打出期望的分数?
楼主: ddtddt (得)   2011-07-18 16:08:00
分数差 = 实际RS - 期望RS 可想成运气or隐藏的因素所造成
楼主: ddtddt (得)   2011-07-18 16:10:00
隐藏因素也许包含:分区守备强度,打者心理素质,观念等众多
作者: jojo2147 (d(_._)b)   2011-07-18 16:10:00
感谢回答,就是想问那些隐藏因素。
楼主: ddtddt (得)   2011-07-18 16:16:00
补充:分数差也一定有包含着因假设线性模型所造成的错误
楼主: ddtddt (得)   2011-07-18 16:17:00
谢谢jojo发问,谢谢aweds的赏脸
作者: Mrlegend (137'5 G0 M375~)   2011-07-18 16:38:00
ㄗㄠˋ
作者: Mrlegend (137'5 G0 M375~)   2011-07-18 16:41:00
跟跑垒技巧也有关
作者: njnw (Say your prayers )   2011-07-18 17:03:00
模型适性分析...这纯粹只是把想要的变量丢进去而已...
作者: njnw (Say your prayers )   2011-07-18 17:05:00
只要变量多 R square 就会高...这并不能解释任何事情
作者: njnw (Say your prayers )   2011-07-18 17:07:00
3个基本假设 常态 共变异数 残差 有检验过吗?
作者: njnw (Say your prayers )   2011-07-18 17:08:00
另外 如果把H拆成1B 2B 3B HR 会发现通常只有HR会显著
作者: njnw (Say your prayers )   2011-07-18 17:10:00
3B 太小就不用说了 (上面应该还有1B可能会显著)也会增加解释模型的难度
作者: danny789 (这其中一定有什么误会)   2011-07-18 17:38:00
请问你分析的样本数够大吗?是否呈常态分配?
作者: ust (应经游侠魂)   2011-07-18 18:01:00
样本分配长怎样?? 有共线性的问题吗??
作者: AWEDS (骑帅不骑快)   2011-07-18 18:05:00
啤酒说啥我都看不懂
作者: uranusjr (←這人是超級笨蛋)   2011-07-18 18:21:00
@njnw 人家是用 adjusted R-square 不是吗...
作者: glthe1 (源千华流)   2011-07-18 18:31:00
水手表示:用哪种算法我的名次都一样
楼主: ddtddt (得)   2011-07-18 19:11:00
我没说这是正确的方式,只说用最简单的方法来看
楼主: ddtddt (得)   2011-07-18 19:12:00
认为要更严谨的人就麻烦您来帮忙改正了。
楼主: ddtddt (得)   2011-07-18 19:13:00
没有把2B 3B分出来也只是因为我手边的资料没有,所以没分
楼主: ddtddt (得)   2011-07-18 19:16:00
资料是目前2011年的比赛,如果看平均得分的画理论上是常态
楼主: ddtddt (得)   2011-07-18 19:17:00
说有共线是因为LOB明显会和H BB HR有相关,所以我有改模型
楼主: ddtddt (得)   2011-07-18 19:19:00
我对njnw有点意见...就是你有检验过不是了吗?为什么要批评
作者: Webb17 (Webb)   2011-07-18 19:25:00
如果只想看结果 不用检定的话 共线性应该没甚差吧
楼主: ddtddt (得)   2011-07-18 19:26:00
估记得分的部分没差,要看H HR BB的比重就有差
作者: globekiller (世界越快 心则慢)   2011-07-18 21:09:00
史诗般的美西
作者: globekiller (世界越快 心则慢)   2011-07-18 21:10:00
国西也是Orz....
作者: MingXDD (一流杂碎)   2011-07-18 21:40:00
就说盗垒是很无聊的事情(摊
作者: MingXDD (一流杂碎)   2011-07-18 21:42:00
而且这还没记算CS的影响吧
作者: r112   2011-07-18 22:27:00
之前做报告老师说R 有0.3就不错了耶
作者: njnw (Say your prayers )   2011-07-19 01:05:00
@uranusjr ARS不是更没有统计意义可言...
作者: njnw (Say your prayers )   2011-07-19 01:06:00
@ddtddt 抱歉 其实不是批评 因为两年前我做过类似的事
作者: njnw (Say your prayers )   2011-07-19 01:07:00
然后做完发现自己缺少以及不符合理论只是硬解释的成分居多
作者: njnw (Say your prayers )   2011-07-19 01:10:00
然后看到这篇 真的离过得去的模型有点距离至少残叉分析要做吧...如果你有兴趣我可以把我的资料寄给你看
作者: njnw (Say your prayers )   2011-07-19 01:11:00
但那并不是什么能登大雅之堂的东西...后来想过修改
作者: njnw (Say your prayers )   2011-07-19 01:12:00
@至于共线性 妳变量选择方式是用什么? 自定吗?@r112 要看资料类型 像这种存在高度相关变量间 的R^2
作者: njnw (Say your prayers )   2011-07-19 01:13:00
妳变量越丢越多 就会一直上升 要0.99也很容易
作者: njnw (Say your prayers )   2011-07-19 01:14:00
其实真要建模 会比较建议使用主成分分析的方式来进行
作者: njnw (Say your prayers )   2011-07-19 01:21:00
另外就算你说用最简单的方法来看 误用统计工具可能会导致错误的结论,你也说了"可能"不是正确的方式
作者: njnw (Say your prayers )   2011-07-19 01:23:00
(更正 妳没说可能,是我说的) 那有人提出问题 也是无可厚非吧
楼主: ddtddt (得)   2011-07-19 09:26:00
你说的我都懂,好歹我统计唸了很多年,但我不是在写论文
楼主: ddtddt (得)   2011-07-19 09:27:00
你可以试试看拿掉一些变量,R^2是否依旧高。
楼主: ddtddt (得)   2011-07-19 09:29:00
回应r112,看是哪方面的数据,描述人的行为的话的确0.3就高
楼主: ddtddt (得)   2011-07-19 09:35:00
我只是恰巧看到一数据,手边没工作就手贱跑个最简单的,跑出来的结果我觉得很make sense,于是分享。
楼主: ddtddt (得)   2011-07-19 09:41:00
还是感谢分享,如果您做出任何否定我的模型的结论,
楼主: ddtddt (得)   2011-07-19 09:42:00
我愿意自D这篇:) normality or residual or equal var都行
作者: ust (应经游侠魂)   2011-07-19 16:09:00
其实你只要残差有干净... 这个模型还是会有他的解释力aweds弱了齁XD

Links booklink

Contact Us: admin [ a t ] ucptt.com