Re: [闲聊] 统计学

楼主: tonyookk (欢乐东尼)   2023-11-28 01:57:51
※ 引述《alex8725 (近鉄バファローズ魂不灭)》之铭言:
: 其实这个解读是错的
: 正确的解读是
: “多次抽样的情况下,约有95%的抽样结果,其正负两个标准差的信赖区间有包含
: 真值”
这个是正确的信赖区间解读方式没有问题
: 你问我这两个有什么差?我也不知道
: 但我以前老师说绝对不能这样解读
: 好像是因为p-hat跟p都是真值没有机率可言吧?
这边就稍微有点问题了,
p是一个未知母体参数所以是当成常数没有问题。
但p_hat是p的一个估计量,也是一个统计量,
所以p_hat仍为一个随机变量,
那既然是一个随机变量就一定有一个机率分布,
所以信赖区间就是透过p_hat加减乘除一些东西后再造出一个统计量,
然后让这个统计量符合某些我们已知的分布,之后再移项,
才有办法造出统计学课本上看到的信赖区间。
那信赖区间要怎么解读呢?
这个问题可以参考
Introduction to Mathematical Statistics by Hogg, McKean, and Craig.
一书内所提到的解释方式
https://imgur.com/jyBgWHC.jpg
简单来说就是把每次抽样、造区间都当成一次伯努力试验,
在抽样之前我们当然不知道抽样后所算出来的区间到底有没有包含p,
也就是抽样前的区间具有随机性,
所以在抽样之前我们就可以说“我们抽样前所造出来的区间包含p的机率为(1-α)”,
这边抽样前所造出来的区间是指统计学课本上所看到的那些公式,
就如同投掷一枚公正的硬币,
我们在投掷硬币前不可能知道投掷后的硬币会出现正面还是反面,
投掷前硬币出现的结果具有随机性,
我们在投掷前就可以说出现正面的机率为0.5,
但一旦投掷后不是出现正面就是反面,
所以我们不会说投掷后出现正面的机率为0.5。
透过信赖区间的定义得知以上叙述是没问题的,
即抽样前我们造出来的区间(两个统计量)包含p的机率为(1-α)。
这边要注意的是我们前面提到统计量仍为一个随机变量,
所以在抽样之前要算机率是没有问题的。
前面又提到我们把每次抽样、造区间当成一次伯努力试验,
所以重复抽样、造区间n次可以视为服从二项分布的随机变量,
而二项分布的期望值为 n*p (此处的p为二项分布的参数,非我们要估计的p),
因此信赖区间可以解释成“抽样100次,约有 100*(1-α) 个区间包含真正的母体参数p”
又或者是“我们有 (1-α)*100% 的信心说真正的p落在这个区间内”。
作者: Kevin0906 (NTU边缘人)   2023-11-28 02:11:00
推 我考试都写最后那个干我居然半夜在复习几年前考研的东西
作者: YongBurger (ErBingTsiahBaBue)   2023-11-28 08:37:00
推 好专业!感觉机率的存在造就了推论统计的博大精深

Links booklink

Contact Us: admin [ a t ] ucptt.com