[问卦] 有没有民调刘伯温的八卦?

楼主: papple23g (逆道者)   2022-08-29 00:49:34
大家好
最近我在逛板上的文章时,推文的一张图引起了我的注意:
http://i.imgur.com/zV767bw.jpg
我就想到,通常选举一结束,大家就鸟兽散,很少有人会回忆哪一家的民调做得比较准确
但是数据就公开在那里,只要用对的方式进行分析,应该就能立马分出高下
甚至透过这些资料,我们还能知道:那些民调和选举结果差距颇大的媒体,通常会高估了
哪一个政党色彩的候选人?
想到这里,我的数据魂又燃烧了起来
首先,为了建立合理的标准来衡量民调的准确度
我们先从简单的案例看起:
【案例一】
A、B 两位候选人在某次选举中的得票率分别为 40%、50% (有 10% 废票)
而在这个选举之前
甲单位的民调结果是 30%、40% (30% 未表态)
乙单位的民调结果是 34%、45% (21% 未表态)
请问,甲乙两家谁的民调比较准?
你会说,简单,先忽略掉未表态和弃票的,把A除以B,再一起比对数值不就好了?
选举结果: A/B = 40/50 = 0.8
甲民调: A/B = 30/40 = 0.75
乙民调: A/B = 34/45 = 0.755...
看来乙民调更接近选举结果,故乙民调胜出
很棒,完美,一百分
可是,如果变成三个候选人参选的情况呢?
请看示例:
【案例二】
A、B、C 三位候选人进行选举
选举结果: 20%、30%、40% (10% 废票)
甲民调: 25%、29%、33% (13% 未表态)
乙民调: 10%、19%、22% (49% 未表态)
现在很难看出哪一家比较准了,因为我们不知道到底要用谁除以谁来进行比较
没关系,既然问题变成三维的,那我们就用三维的方式去解决它
如果把各候选人 (A, B, C) 的有效票画成“向量”,我们可以得到这张 3D 绘图
https://i.imgur.com/tLbXjUy.gif
可以看到,虽然乙民调(黄色)的向量比较短(有效票很少),但是它指向的方向和选举结果
很接近
https://i.imgur.com/PwnrMGH.png
可以断言的是,民调向量和选举结果向量的夹角越小,就代表它的民调越接近真实结果
为什么呢?
还记得新闻喜欢拿“章鱼里”来预测大选结果吗?
章鱼里的人数虽然很少,但是可以比拟为全国投票状态的缩影
但如果把章鱼里的投票数向量画上去,那么它(理想上)会和大选的向量会完全重叠在一
起!
这种使用向量夹角来量化相似度的方式,叫做“余弦相似度”
公式可以写成这个样子:
https://i.imgur.com/BYJHAtT.png
这个公式只会产生 -1~1 的数值范围
如果两个向量刚好完全重叠,得到的结果会等于 1 (即预测与选举结果完全一致)
反之,如果算出来是 -1,那代表它的预测是完美的反指标 XD
只不过目前的情况,支持率的数字都是正数,所以不可能会出现负的数值
最差的预测结果也只会是两个向量互相垂直 (即数值等于 0 )
于是,我们可以利用这个“与选举结果向量的余弦相似度”
拿来作为“民调准确度”的指标 (范围: 0~1 分)
现在,我们用公式把上面两个案例重新算一遍:
【案例一】
甲民调准确度: 0.999512..
乙民调准确度: 0.999616..
(乙民调胜出)
【案例二】
甲民调准确度: 0.988229..
乙民调准确度: 0.996710..
(乙民调胜出)
得证,乙做的民调单位比甲更准确~
热身完之后,当然开始拿真实数据开刀啦!
首先我从 2020 的总统大选开始下手
维基百科上面都可以找到当时各家媒体的选前民调
于是我直接把资料爬下来,粗暴地计算一番:
https://i.imgur.com/B0hVoh7.png
(注1: 同一家单位可能在不同时间做了多次民调,我只撷取准确度最好的那一次)
(注2: 民调百分比皆已排除未表态数据并做归一化处理)
哦~ 原来第一名是TVBS阿 (思)
虽然结果出炉了,但我还不满于此
我想,如果能把每个民调单位用刚刚的 3D 画出来,做出全局的分布图,那样不是很猛
吗?
只恐怕画面看起来会很凌乱,而且 3D 图需要像上面那样不停转动才能看出全貌,如果我
底下贴一堆旋转的 3D 图,大家不就看得头昏眼花了吗?
幸好我找到了一种很棒的绘图方式,叫做“三元相图(ternary diagram)”
举例来说,2020总统大选的选举结果,可以落在三元相图中的这个点上面:
https://i.imgur.com/kkuaVh0.png
基本上你可以这么理解:
“落点越靠近谁的顶点,就越倾向谁会当选”
三元相图还有一个重要的特色是,无论你点在三角形中的哪一点,三人的数据总合起来都
会是 1 (即100%)
这非常适合拿来绘制有三个候选人的选举得票率占比
现在我们把各家民调也画在这张图上面试试!
https://i.imgur.com/zg14DY6.png
好像太挤了,我把图片放大一点:
https://i.imgur.com/BygGKMu.png
可以看到,TVBS的民调确实最接近选举结果
除此之外,我们还可以怎么解析这张图呢?
根据“越靠近谁的顶点,就越倾向谁会当选”的原则
如果画一条通过选举结果点的水平线,它就能辨别该民调单位是高估还是低估了蔡的得票
率:
https://i.imgur.com/6lYWaCD.png
(自由时报...还真是正常发挥阿 XD)
如果切另一个角度,也可以看到民调对韩得票率的高估和低估程度:
https://i.imgur.com/LeK1wfE.png
基本上民调普遍低估了韩的得票率,而这其实是有迹可循的
因为韩阵营当时的选举策略是,遇到民调一律回答“唯一支持蔡英文”,藉以扰乱民调,
避免打击支持者的信心
然而在这种背景下,TVBS还是做出了离选举结果相近的民调,实在不简单
至于老宋的角度,也可以看出所有民调都高估了宋的得票率,即俗话说的蓝绿归队,这个
我就不画渐层图了,画这个很累= =
另外,为了让数据更客观,图上圈圈的大小也显示了调查当下离选举的日期差距,毕竟天
数差距太大的话,民调不准也是无可厚非
以上是候选人数是三个人时的绘图方式
至于候选人数是两个人的情况就比较简单了
以 2018 新北市选举侯友谊 vs 苏贞昌 为例,绘图如下:
https://i.imgur.com/jn0JH2v.png
X 轴基本上只要选择其中一个候选人的得票率即可 (我使用的是 苏/(侯+苏) 得票占比)
注意数据已经过局部放大处理,当时是侯胜选,只是 Zoom in 后选举结果看起来偏右
而 Y 轴放啥都没差,我就拿来放民调准确度了
由于公式计算的关系,民调看起来会是“类抛物线”的分布
这里的虚线同样也可以区分民调的偏差程度:
https://i.imgur.com/SZhYN8i.png
只能说,靠向右边的民调单位,确实台湾价值高到不行
哦? 这次自由比TVBS更准了一点,难道自由还是很有料的吗?
没关系,等等我会把近年各届的选举民调拿出来一次做统计,选出真正的民调刘伯温!
相信各位现在已经学会如何看图了
接下来就公布 2012 以来的总统选举 + 2018年直辖市市长选举 的各家民调偏差分析结果

https://i.imgur.com/Fp5YVS2.png
https://i.imgur.com/zrYfxZL.png
https://i.imgur.com/Io5oMKO.png
https://i.imgur.com/HqLnE8j.png
https://i.imgur.com/HLQYPFq.png
https://i.imgur.com/wD1iK81.png
https://i.imgur.com/LrNsQgy.png
https://i.imgur.com/70jzCCG.png
https://i.imgur.com/C2GrEXj.png
继续阅读

Links booklink

Contact Us: admin [ a t ] ucptt.com