Re: [讨论] 民众党内参民调原始数字流出

楼主: NewYAWARA (朝霞之前奏)   2023-12-11 20:46:20
※ 引述《a10141013 (FlyBall)》之铭言:
: https://i.imgur.com/pkUMcld.jpeg
[文长恕删]
今天有索取到民众党官方寄来的所谓raw data资料,
有兴趣的话可自行参阅: https://tinyurl.com/4tfhmhhv
以下是几个比较明显的问题点:
一、提供的并非是raw data资料
一般而言在民调上指的raw data,是指从调查或研究中直接收集到的数据,
这些数据在被记录时尚未经过任何处理、分析或加权。
换言之,最好的情况是提供民调的SPSS档让人直接去做分析,
如果没有的话,至少要包含市话加权前交叉表、手机加权前交叉表,
这样才能更仔细的去做比对及推测使用的加权方式看看是否合理。
毕竟单纯只说依照户籍、年龄、性别、教育程度的多重反复加权,
无法了解市话与手机合并时的各自样本代表权重
(显然不是单纯的市话7手机3的比例下去合并)。
二、手机样本的过度高估
由于民众党所提供的资料,并没说明市话及手机整并时的权重,
但因为他们的交叉表有做“电话使用行为”,
所以大概可以推测是使用双底册方式整并。
但即使是双底册,也有不同的整并方式,这边就不额外说明,
只是当民众党没说明是怎么整并时,我们不容易看出加权是否合理。
因为他们所提供的资料,没有市话、手机在加权前的交叉分析表,
我们只能就手上既有的资料来做粗略的推论。
通常会出现问题的,就是在年轻样本的估算上,
因为找到的样本数少,所以一开始取样时就容易有偏误,
而愿意接听手机并作答的族群,有可能偏好与不接听的有所不同,
就有可能会因此更加放大差异。
若我们就针对20-29岁的样本来做粗略检证的话,
我们得知加权后的柯盈配支持率是55.7%,
所以还原回来,样本数是97份(174*0.557)。
而我们从柯盈配在市话加权后的数据是18.9%来看,
参照多数类似的市话民调,我们先假定在这个年龄层,
柯盈配拿到的是40%支持率左右,换算回来,
在市话的原始样本则是22份(55*0.4),
接着从市话并手机的加权前数据,膨胀为加权后数据时,
权重是167%(104份样本变174份样本),
因此市话加权完后的样本,则会因此膨胀为37份。
那么,手机样本在此占多少呢?我们把加权完后总份数97份,
减掉市话样本37份,所以我们可知手机样本在加权后约占60份。
而我们再把手机样本还原为还没加权前,大约是36份(60 / 1.67)。
36份则是占手机加权前样本的73.5%(36 / 49)。
换言之,柯盈配在手机的20-29岁原始样本,可能是超过七成的支持率,
这与现实世界实际情况可能并不相符。
若是很单纯的将市话及手机个别加权完后再整并,
那么由于市话占了70%的比重,在市话支持率40%、手机支持率73.4%的情况下,
整并后会是50%左右,会比两种样本先加起来,再开始加权后的55.7%要来的低。
而由于柯文哲占优势的30-39岁的样本有着完全一样的问题,
因此按照民众党的加权方式,对于柯文哲提升支持率就会有更大的帮助。
三、加权的不稳定
在这边我们很明显的会发现三个主要的问题:
1. 不同的加权方式会大幅影响最终的整并结果
2. 柯盈配在手机年轻样本的支持率会有严重高估倾向
3. 手机看似只占三成比重,实际上会因年轻样本仍不足以弥补市话不足,
使得加权后会再更放大手机年轻样本的偏误(权重膨胀67%)
这也说明了为何纯市话的加权后结果,
柯盈配的支持率仅是从13.2%膨胀为18.9%,
但是市话并手机后的结果,却会大幅膨胀到27.6%的原因。
以上大概是几点研究完民众党提供资料的想法,
最主要还是手机调查很可能会放大偏误,
而市话并手机时,没有详细交代加权方式,
则会让人无法信服,特别是在年龄加权会深刻影响结果时。
这些是民众党内参民调之后需要去克服的问题。

Links booklink

Contact Us: admin [ a t ] ucptt.com