[讨论] YT民调资料查询工具-加入电访资料

楼主: Tpintrts (Tt.梅梗)   2023-09-26 00:19:43
https://www.aweb.tpin.idv.tw/president2024/
这个是先前提过可以查询YT街访民调的工具,
你可以透过筛选条件来查询影片和统计资料。
原本做这个工具主要是想研究YT影片为何做出来的结果与电访民调的差异那么大,
第一个想到的当然就是抽样问题,但随着研究他们的样本分布,我渐渐觉得,
会不会其实街访和电访根本是调查著两个特征完全不同的族群呢?
而这个特征(我不知道是何种特征)正好与是否为柯文哲的支持者正相关,
因为另外两位候选人在街访与电访的结果并没有像柯文哲那样大的差异,
正因为如此,过去电访可以一定程度的“代表”全台,但这次可能不行了。
基于这个假设,不得不设法加入电访民调的内容,
正好TVBS的民调提供的公开资料中,有足够的资讯可以反推年龄层的样本数。
同时TVBS的民调资料,也会成为街访民调的“对照组”,
让我们看看街访民调的取样分布比起电访民调的取样分布,
是不是真的糟到不堪使用的地步。
以下TVBS的报告用以下这个为例:
https://reurl.cc/Oj4oYA
我们就以版上对关注度最高似乎也比较“有系统和计划的”在做民调的木炭为例吧。
这是木炭目前影片的年龄分布,
请把60~69岁及70岁以上合计为30.2%,我国合计为30.5%,
其他年龄层的样本分布也大致与国家分布相同。
https://i.imgur.com/03QyJjc.png
这是TVBS的年龄层分布,基本上与国家分布也没有差很多,
60~69岁那组请视为60岁以上,因为报告中是采用这个刻度。
https://i.imgur.com/vkMFpjm.png
这里我们可以知道,木炭的年龄随机性并没有比TVBS的电访民调差,
分布上大致符合国人情况。
至于地区取样,木炭是各县市做100票,
这部份虽然地区分布平均(人口分布问题后面谈),
但会被质疑“抽样太少”的问题,
这部份就要谈到“信赖水准”和“抽样误差”
我们常常会看到传统民调中的这段话
“95%信心水准下,抽样误差为±XX 个百分点以内”,
这东西是怎么算出来的呢?
可以参考这个网页工具,里面也有公式介绍:
https://zh.surveymonkey.com/mp/margin-of-error-calculator/
单县市只抽100人的话,以云林县为例,出来的结果会是:
https://i.imgur.com/fZEiLf5.png
560853为云林县人口,所以单抽一百人的话会是
“95%信心水准下,抽样误差为±5 个百分点以内”
通常民调公司都会压在±2.5,所以就单县市来说,这个样本太少没有错。
但TVBS总共只抽千余位,平均一个县市差不多50人,单县市就不会样本太少吗?
所以他们分层不是单县市。
https://i.imgur.com/WDCNmvo.png
我原本是这样以为的,但当我计算样本时发现也不对,
这个例子里有效样本数为1273位,15%为191位,云嘉南总投票人口为2769467,
放进公式算:
https://i.imgur.com/yucGzws.png
TVBS误差范围是±3.5%,
反而木炭做300人,误差范围是±3%,
所以到头来那个“95%信心水准下,抽样误差为±2.7 个百分点以内”
是以总样本数对应总投票人口算出来的,所以如果木炭真的22县市做完,共计2200人,
他们算出来会是:
https://i.imgur.com/Qt8m9mE.png
“95%信心水准下,抽样误差为±1 个百分点以内”
这里要说的并不是木炭的抽样误差有多小,而是这东西反正你就套公式进去算,
就像分层用云嘉南,如果他云林访了150个,嘉南访41个,合计也是191人,15%,
TVBS报告里面你也看不出来。
所以就这部份来说,木炭的街访的样本也没有比较差。
再来是加权问题,
同样抽100人,连江县的100人和台北市的100人,
如果要推估全台湾的投票人口母群体,就不能把它们各视为“100票”,
因为台北市的投票人口是连江的173倍左右,推估全台支持度的话,
都算成一票是有问题的,
因此如果木炭他们把不同县市的票数未经加权就合计,然后做比较,
这样是不行的,但他们也没有那么做。
讲到这里,我们至少可以知道木炭街访的样本品质没有差到不堪使用,
至少在地区和年龄的处理上,并没有比民调公司的差太多。
所以,我们应该可以运用这些样本来做处理。
那么接下来的问题就是,假设市话手机民调与街访其实是三个族群,
那他们的比例应该是多少,
根据这份关于市话使用情况的报告
https://reurl.cc/V41oq5
这份报告详尽的介绍了研究方法,也提供了原始样本,
可信度应该很高,
从中我们可以知道有51%左右的人已经完全不使用市话,
剩下的市话用户里还有约27%左右为企业用户,也就是说,
还在使用市话的个人用户可能只剩全部人口的33%,
我们可以认为这33%就是市话民调的“母群体”,
那剩下的67%人口,是市话民调调查不到的人,
调查不到就是调查不到,再怎么加权也没有意义,
那我们假设手机调查的群体也和市话一样33%,剩下的就是街访了。
这是我的比重推测,当然这部份也是大家争议最多的地方,
虽然我默认电访占65%,但网页中这部份大家可以自由设定,你也可以设定100%。
接下来要谈的图表,都是以木炭有年龄资料的影片和TVBS的民调的调查,
电访比重:65%、电访平均投票率:75%
https://i.imgur.com/D52Kzei.png
我们可以看到在原始样本无加权的情况下
赖37.2%、侯27.2%、柯35.78%
https://i.imgur.com/xteUnYq.png
我们对县市口加权,但假设投票率为100%时
只有街访的话是
赖35.32%、侯19.02%、柯45.65%
街访并电访
赖35.32%、侯19.02%、柯45.65%
https://i.imgur.com/phE9sBy.png
这里对县市人口加权的方法,举例来说:
候选人共获得该次100票中的50票,调查的县市为连江县,其总人口数为12118,则此候选
人在此次调查中会被加权为6059票。
并电访时,则是依照上面的方式得到票数后,再乘上权重。
接下来我们把年龄层的投票率考虑进去:
网页中提供了以2020年龄投票率为基础的高投票率
还有以2016年龄投票率为基础的低投票率,这里就只讲2020的为例
只有街访的话是
赖35.95%、侯19.58%、柯44.47%
街访并电访
赖37.05%、侯25.69%、柯37.26%
https://i.imgur.com/etg8tdZ.png
计算方式为举例来说:
候选人在20-29岁年龄层共获得该次100票中的20票,而2020年总统大选20-29岁的投票率
约71%,连江县总人口为12118,则投票率100%时该候选人可以获得20-29岁约2424票,但
投票率此时假设为71%,因此加权后计为1720票。
电访的情况下,因为没有办法得知单一县市的年龄层分布情况,所以要人口并年龄加权有
困难,所以其投票率设定为75%,此为2020年总统大选的平均投票率。
这里可能有人认为,报告中特别强调只调查“有投票意愿”者,这里怎么还要有投票率,
这是因为人只加权的情况,即使只记载“有投票意愿”者,人口总数中仍然会有“无投票
意愿”者,他们没有在报告中被记载,但人口加权时还是要先排除掉这些人。
每种加权方式的重要假设都写在表中,其统计结果会有多少参考性就自行评估了
https://i.imgur.com/Kp264nF.png
到这里说明完样本加权的方法与结果,有兴趣的人也可以试试别种筛选条件。
我认为,街访就是比较容易做出柯文哲领先是不争的事实,
而市话使用人口剩下约33%也是有根据的,
与其一直说其中一边不准是假的,
或许应该考虑怎么做才能获得一点真实性。
美丽岛民调执著在市话民调是一件很奇怪的事,
确实市话有着能准确知道对方地点的好处,
问题用的人就是变少了,我不免觉得是因为花大钱系统建在那边了,
如今要改也是累,就继续用吧的感觉。
街访民调也有其限制和缺陷,但直接说成没有用,也是不太合理,
毕竟实地访问是很常见统计调查方式,难道那些研究收集的样本都没用吗?
另外,用选举结果衡量民调准不准是不公平的,
你现在调查我,我说我要投A,因为我很讨厌C,
结果后来看一看B好像比较会上,为了干掉C我就投了B
我能说你的调查“不准”吗?在那个当下还是准的吧?
既然有“弃保”这种东西,民调注定会和选举结果有落差,
只能求当下是贴近现实的,
让民众能有效决定投票策略,候选人能准确知道努力方向,
所以追求“真实”的民调还是很重要,
那我们就需要知道民调的细节,才能考虑他可能哪些地方会与现实有落差。
最后提一个人口加权重要性的例子,
刚好“五星司机艾伦”目前做出来的结果是个好例子
他所有影片只做了新北市和台北市,没有年龄资料,
在没有县市人口加权的情况下是:
赖40.35%、侯16.99%、柯42.66%
https://i.imgur.com/3y7SSIi.png
不过人口加权后就惊人的逆转了:
赖45.15%、侯23.86%、柯30.99%
https://i.imgur.com/undefined.png
这是为什么呢?加权方式有问题?作弊?
其实不是,我们观察他台北市和新北市的访查的样本数
https://i.imgur.com/uRUGevO.png
https://i.imgur.com/EP9W0C1.png
会发现赖清德在新北压胜,柯文哲则在台北大胜,
但台北投票人口为209万,新北则为340万,
较多的样本数并不会影响人口总数和得票比例,
人口加权之后,反而赖在新北的样本就变大很多,于是结果就不同了。
至于他两个县市的调查分布可能有点问题,这里就略过不谈了。
其实不管街访多么不严谨,他们都至少让另一种声音能被注意到,
也让民调公司有一些压力,让人们开始会想探讨样本与统计方法,
而不是只是一直谈立场,讲“机构效应”之类的东西。
另外,有些人喜欢用YT出片时,影片结果是谁领先来讲对方风向变了或是别有用心,
这里统计了各YT频道各候选人领先时的影片数,相信对测风向有点帮助,
https://i.imgur.com/iu3q6da.png
我们可以发现桃园孙先生每个候选人领先的影片数都差不多,
赖领先的影片还相对较多,
但我想并不会有太多人(包括他自己)觉得他支持民进党吧?

Links booklink

Contact Us: admin [ a t ] ucptt.com