楼主:
StarDog (泥娃娃)
2024-03-26 07:40:22【书名】:社会菁英必备的数学素养
【作者】:奥利佛强森
【译者】:刘怀仁
【出版】:天下文化
#podcast: https://open.firstory.me/story/clu4q4xzh00p701undyfb57uq/platforms
这本书的起源来自于疫情期间,作者以数学家的角度,
在网络上发表文章,帮大众解读疫情的统计数字是什么意思,
我看完这本书以后不禁感叹,如果我更早理解这些概念就好了。
统计数字怎么看?
为什么要做统计? 因为现实中,我们不可能拿到每个真实数字,
所以我们利用一个小样本的结果来推算总体的结果,
前提是这些小样本要有足够的随机性与代表性,
这也是为什么街头的民调结果与真实结果相距甚远,
因为街头的访问虽然随机,但随机的路人并无法代表台湾的人口组成,
自然就无法以这个小样本的数据推算最后的结果。
既然是推算的结果,一定存在与真实数字的差距,
所以一个有效的统计报告通常会这么说:
“信赖区间 95 %,误差范围 +- 3%”,
什么是“信赖区间”与“误差范围”呢?
误差范围比较好理解,如果说统计结果是“某候选人支持度40%,误差范围 3%”,
就代表真实的数字可能介于43(40+3)% ~ 37(40-3)% ,
而信赖区间则是代表一个信心值,
因为统计样本有随机性,不同的抽样,有可能得到不同的统计结果,
而信赖区间代表的是如果重复这个统计好几回,有多少机率会包含真实结果,
如果信赖区间 95%,代表有 95%的机率包含真实结果。
信赖区间与误差范围会互相影响,
假设我们设定很大的误差范围,例如+- 10%,
我们当然会有极高的信赖区间包含真实结果,
但这样的统计数字就没有意义,
因为即使知道候选人的真实支持度有100%的机率落在30%-50%之间,
我们还是很难推测真实数字为何。
相反的,如果我们设定很小的误差范围,例如+-1%,但信赖区间只有50%,
代表有五成的机率39%-41%的范围没有包含真实数字,
这样的统计数字一样没有帮助,
所以以后看新闻,如果看到一些耸动的统计数字,先别着急,
先看看这些数字后面的信赖区间为何。
疫苗到底有没有用
我们用疫苗的例子来说明统计学的“虚无假设”。
新药可不可以上市,来自于新药的临床统计数字,
假设我们已知 70 岁以上男人每年有1%的机率会死亡,
现在疫苗公司将新药试用在 1000 名随机挑选的 70 岁以上男人上,
发现仅有 5 人死亡,我们是否该核准该药上市呢?
如果光看数字,原本根据统计,应该有10人会死亡,
现在使用新药后降成一半,看来新药效果很显著,
但另一方面,我们知道 1%只是统计结果,不代表每年一定会死 10 人,
所以 5 人可能只是一个随机的结果。
要怎么判断呢?统计学有个很重要的理论“虚无假设”,
意思是我们应默认新药是没有效的,
除非结果显著不同,该结果产生的机率低于随机产生的机率,
我们才足以推翻原本“新药无效”的假设,
在统计学上,我们将该机率称为 p 值,
当 p 值越小,就代表该结果越不可能发生,
如果真的发生了,就是我们假设错误,也就是我们可以推翻原本的虚无假设。
习惯上, 我们常把 p 值设为 5 %,
如果低于 5%,我们就足以认为该结果不是随机产生,而是有意义的数据。
回到新药的例子,每年有1%死亡机率,1000 人中有 5 人死亡的随机机率为6.6%,
还未低于 5%,因此代表我们的测试结果 5 人死亡很有可能只是一次幸运的随机结果,
不一定是新药带来的作用,
然而 5% 的阀值没有数学意义,只是约定俗成,
因此也不表示新药一定无效,只是还未达到统计的显著性。
普筛到底有没有用?
让我们试着用统计学来讨论疫情期间大家争论不休的一个题目:“要不要普筛?”
我们知道所有的检测方式都不是100%准确,
我们用“特异度”来表示“没有染病的人检测结果正确”的机率,
用“敏感度”来表示“有染病的人检测结果正确”的机率,
PCR 是疫情期间最可靠的检测方式,
根据统计,PCR的检测敏感度为 80%,特异度是 99.5%,
假设我们对 1000 名随机受试者普筛,假设染病率为1%,
因此我们预期 1000 名受试者有 10 人确实染病,
因为敏感度为80%,所以有8人会被正确检测出阳性,而2人错误检测出阴性。
在未染病的 990 人中,正确检测出阴性有 99.5% 的机率,
人数为 985 人,而错误检测出阳性的机率则为 5 人,
所以我们会得到 13 个阳性结果,而真正染病的机率是 8/ 13 = 62,
这显示在随机普筛的结果下,即使是像 PCR 这么可靠的检测方式,
也会得出不可信任的阳性结果,仅仅六成而已,
因此我们应该可以理解为什么当初政府一直没有做大规模普筛,
因为错误的检测结果会加重医疗系统的负荷,使真正需要医疗的人无法获得帮助。
当时的政策是如果你有出现咳嗽发烧的症状,再去做筛检,
让我们同样用统计学来看看这么做会带来什么结果。
我们假设有症状的人,每 11 人有 1 人是真正染病的人,机率大约是9%,
因为只有出现症状的人才会去做检测,我们同样假设是1000名受试者,
但现在染病的机率从原本随机的1%变成有出现症状的9%,
如果再一次计算检测出阳性,且真的染病的机率会大大提升成93.5%,
这个方法得以上让真正需要医疗的人获得帮助。
检视两个方法最大的差别在于染病率,在大规模的随机试验中,染病率是可能不到1%,
而出现症状的人染病率会大幅提升,
当染病率越高,就能让检测出阳性,且真的染病的机率大大提升,
所以普筛不是不能做,但前提是我们已知该病的染病率非常高,
检测出阳性且正确的机率很高,
只要检出阳性,我们就强迫病人隔离,限制病人活动是防疫的有效方法,
但政府在防疫的同时,也要考虑这些被迫隔离的人,无法工作,
将会损失收入,对社会经济造成影响,
所以“要不要普筛”不只是一个统计问题,还是一个取舍问题。
要在全民健康与经济损失中做个取舍。
感想
我们一路从小学开始学数学,一路学到大学,
可能有不少人觉得出了学校,这些数学根本用不上呀。
我觉得那是因为我们学数学的时候,很少跟现实的例子结合,
例如我们都学过斜率,给我几个点,可以算出连结这些点的斜率,
但算这个要做什么用呢?放到现实中,斜率可能代表感染速度,
根据斜率,我们就可以推算出未来的感染人数。
这本书不是在讲数学理论,而是想要培养一个普通人的对数字的感觉,
难怪书名叫作“数学素养”,
看来以后我们不只需要文学素养,音乐素养,也需要来点数学素养了。
作者:
decorum (Festina Lente)
2024-03-26 18:49:00书名翻译实在糟糕 从中文翻译回去 英语读者八成以为作者是法西斯分子 “菁英”在欧美民主社会是很不好的字眼
作者:
DaNee (猫眼神的大白兔)
2024-03-27 21:42:00其实高中数学学得够好这本可以省下来
作者:
psion (psion)
2024-03-28 10:21:00如果内容只是这些频率学派的东东 真的别浪费钱了
作者: lemonno003 (悠) 2024-03-28 15:59:00
信心水准 = 信赖区间包含母体参数的机率
看标题就知道要讲的是统计 一看内文果然是我也觉得这个书名不妥 这是大家都需要建立的观念不分阶级另外统计学的观念 是不是就等于 数学素养我觉得这也有待商榷