[爆卦] 民调计算全详解

楼主: Psytoolkid (心理基德)   2023-11-19 17:29:20
下面会直接分析结果,当然有些分析实际上要有原始数据会比较好,所以算是偷懒概算。
那为什么这次分析民调两边会吵成这样,我只能说原因在于两边大概对统计都不熟啦,尤
民众党那场记者会,套用的误差根本是连大一统计的程度都没有,如果国民党跟民众党在
吵误差范围时是用民众党呈现的误差值在吵,那我只能说很悲哀。柯文哲整天说误差3%就
已经体现他统计底子不够了,结果朱立伦记者会也在回应1.5%的问题,两边完全搞错民调
分析方法。
一、原始表格提到的误差怎么来:
首先要说,那个误差计算适用的是白努力试验,也就是答案只有支持或不支持、0或1的条
件下适用的。我已经算过了,就看图吧:
https://imgur.com/LRgmD6w.jpg
这个公式计算的是在一个只有两种结果的试验下(例如抛硬币只有正面或反面),其中一个
可能发生机率P(例如硬币出现正面的机率)的正负1.96倍估计标准误(也就是一直在说得
95%信赖区间的误差),所以他只代表了你抽样估计比率时的分配分散情形,不能直接拿来
代表计算跟其他比率做差异比较时的误差。而且只适用N=1时的二项式分配(白努力试验)。
顺便讲一下柯一直在说得3%误差怎么来的。你如果要做民调而且不知道母群理论上得比率
分布(离如50%VS50%还是30%VS70%),这时候根据以上公式(只有在2选1民调适用,其他把
这概念用到所有民调上的,那都较做误用),在还算符合经济效益又有在最保守估计下可
达到还算可接受的误差范围就是3%,在最保守估计(P与Q代0.5时,便异数会是最大值)取得
最低需要人数只要1068人,便可以在民调上确定取得估计误差介于-3%~3%的成果。
所以这个民调通说得3%本来就只是在考量经济效益还可接受的人为选用的值他只代表你的
机率估计有多少机率包含母体真实机率,当然根据假设检定的道理,脱离这个范围的机率
你可以视为不属于此样本而认为差异显著,但是这种判定是在判定一个个体是不是属于一
个群体时适用,两群体间的比率或平均数差异是要转换的。
二、单问卷内差距分析:
从新闻上分享的资讯看来,大概可以推估问卷(没看过或听过问卷只能推测)
施测方式:一个受访对象回答A题:柯侯VS赖,你选谁?,然后B题:侯柯VS赖你选谁?也
就是说A和B的回答属于一种within subject的设计。而A题和B题内因为择1,所以两个选
项的比率来自不同人,但是你每一个问题内不管你分成多少候选人占比,他
都是一个封闭的一组样本,所以重点:1.所有人的回答对支持度的影响不会完全独立,谁
多了其他人就少、2.一般的检定方法包含Z检定和T检定(与区间估计一体两面)都是估计两
个样本群体的差异,不适用在单题内侯柯/柯侯对赖的差距是否显著。
然后,昨天民众党说国民党提然后国民党否定有提出的2倍议题,这个标准只
适用在一组样本内只有两个选项(Pvs1-P)的差异显著性的判断(像这次民调有两个都没支
持的也不行),完全不适用在A题和B题母数的比较,因为A题和B题的差值可以用两个样本
群体做计算。
如果真的要照民众党记者会公布的先算跟赖的差距,再比两种情境下的对赖差距
是否显著(差距的差距),步骤应该如下:
1.将柯侯/侯柯的民调减赖的民调
2.透过以下公式计算差值的1.96倍标准误:(统计一般来说,讲到误差值就是标准
误的值
所以新闻吵什么3%变6%还是说什么3%误差是指整个95%信赖区间的range,我只能说两党候
选人和幕僚都回去翻一下大一统计课本好吗?2倍根本不适用而且误差值也不是指信赖区
间的range):
https://imgur.com/8F1fv3t.jpg
为何用这个公式,请参考下面文章说明:
https://abcnews.go.com/images/PollingUnit/MOEFranklin.pdf
推导请看这篇:
https://reurl.cc/7MQboQ
https://imgur.com/yCbybRb.jpg
https://imgur.com/BLV7VRs.jpg
简而言之,你如果在单一样本内有三种以上分配的分配比例,你要计算两个候选人的差异
应该考虑用多项式分配,避免误用过于严苛的显著标准(也就是纯白努力试验下的两倍P
分配的估计标准误。符合多项式分配的前提是取样数相对整个母群很小的情况,例如这次
抽样介于1000~2000左右,只占全台0.01%内的人数,那原本是取后不放回的试验可以当作
取后放回来看待,所以单样本如果跟这次民意调查一样有三组比例分布,那可以透过多项
函数整合算出一个结果,根据这个前提可以透过考量共变量的公式将其中两个候选人的差
异问题变回二项式范围处理,计算出两候选人民调差异真正适用的标准误。
3.计算结果确认跟赖有达到显著差异的再来执行两种情境的差异比较:
https://imgur.com/VlxG9tE.jpg
https://imgur.com/SvV3Lo4.jpg
excel公式如下:
https://imgur.com/mUkXw8H.jpg
https://imgur.com/AVcqpWU.jpg
结果显示两种情境柯侯和侯柯对赖都有显著差异,但是其实从差距的效果量来看就知道
柯赢比较多啦。
三、跨情境(跨题)对比
1.民众党差距的差距较正确计算:
https://imgur.com/wwtwfll.jpg
类似这张图内在做药物或处置效果对比的调整间接比较法,不过A题和B题各自内部差异是
单样本的不同候选人支持度差异,而不是操弄组对控制组视为两个样本群体。
显著检定结果如下:
https://imgur.com/fvPKiT6.jpg
我是用独立样本t检定计算,公式如下(如果是我假定的抽样方法应该要用相依样本t检定
会比较适合,但没原始数据,而我有两种情境对赖差距的期望值和变异数,所以干脆用独
立样本的作法试算,在视为独立下分析还能显著,其实相依的方式分析也可以显著,当
然也可以用第二段靠估计的方法算共变)。其实柯几乎可以当作辗压。
两独立样本差异t检定公式:
https://imgur.com/Rv1QbPB
https://imgur.com/WS43GcS
Excel内公式:
https://imgur.com/od3mV1n.jpg
2. 听说国民党的计算方式:
好像就是类似单纯比较法,不过这种方法很鸟啦,根本不用讨论,完全无法反应两种情境
对赖的差距。
建议:
1.其实检定两种情境的比例结构,应该可以考虑Chi square 改变显著性的延伸:Bowker'
s test of symmetry。
2.明明其他项占比超大,请不要随意用binomial方法算误差好吗?
3.单样本内不同候选人的支持度差异之标准误计算早就有文献在讨论了,请多看。
4.题内比较一次再跨题比较,会遇到型一错误率膨胀的问题,应该考虑校正(此篇分析因
为懒也没有做)
5.这种分析全部当作抽样有代表性,但是看公布出来的结果,两种抽样方法没看到加权调
整的作法。
6.Confidence interval信赖区间实际上含意是指做无限次同样抽样方法和建构信赖区间
的方法,这些区间有95%机率会涵盖到母数,简而言之就是你对建构这个区间的信心,现
在常见的解释“母数在这个区间的机率有95%”其实是反过来用,而且不一定牢靠,因为区
间一建构完,实际就只有包含或不包含母数其中一种情况,就像刮刮乐会宣称中奖率,但
是你一但买了一张拿在手上,那张的结果就是确定的只有中或不中其中一个结果。

Links booklink

Contact Us: admin [ a t ] ucptt.com