再看了CDC跟双北记者会后,想跟各位谈谈“校正回归”的定义以及数据上不合理之处。
以下我会提出几个问题,并从我手边的资料提出一些想法,文长,不喜可以直接跳下去
看结论。
我想先简单说一下我的背景,我刚好在美国念cs博士,资料分析是我其中之一的专长,对
于科学研究也还算略懂。又刚好碰上了纽约封城,也经历了这段政府从认知到严重性、封
城、打疫苗、解封的过程(那时候每天都得看Cuomo的记者会)。我希望能从我所学的概
念与知识,跟各位讨论以下问题。
Q:所以“校正回归”的定义是什么?
没有定义。我认为这名词99%是现在中央政府发明的。一个快速的检验方法是去GOOGLE
“ 校正回归 英文”或“校正回归 研究”如果跳出来的都是些阿哩布达的东西,那大概
就是没有人在使用的玩意 (这边先不谈google 的权威性以及错误率,至少这方法在目前
一般状况下都有很高的参考性)。 我再后来又看了双北记者会跟陈时中的追加解释
(ref. 1,2,3),大概得到的定义就是 “因为验证检验结果的时间不够,所以有一些试剂
验证不完,只好之后处理完再补上数据”,这个时间不够可能是key资料的时间不够、报
到中央的时间不够多、研究室辨识确诊的时间不够多...等等。
Q: 那“校正回归”是新概念吗?
不是,去年那么多国家在做检验,他们也会遇到一样的问题。 前面有些人文章提到的
“ testing backlog”(ref. 4,5) 就是很好的例子。backlog是指当要完成一件任务需
要做很多事情时间又不够的时候,就挑优先度高的先完成。 简单说,英国那边的实验室
说我们一天只能检验三万笔试剂,你一天送三万三千笔来,我们只能压着三千笔以后验
。但是每天都超收,压的试剂就越来越多。所以要解决这问题,英国有几天就把检验量
缩减,让被压着的试剂能验完 (ref. 6)。
Q: 所以这个新名词“校正回归”,有什么不好吗?
有。 第一点,这名字烂透了。 “校正”是指把错误的东西改正回来。以上面的例子来
说,没有一个是错误的阿,你早就知道你还有没验完的试剂,跟错误有什么关系? 再来
,“回归”这个更扯,回归是指调整函数的系数使得它可以逼近资料上的实际值。 请问
上面的例子哪一部分跟回归有关系? 取名也是有学问的,是要让人能直觉联想到你在做
什么,而不是把很多fancy的字凑在一起就行了,你以为是在写武侠招式吗?
第二点,它的定义十分模糊,甚至包山包海,只要还没来的及统计完的,都可以之后补
上再说我是校正回归。我认为当政府给出一个新名词,最重要的就是要把定义说清楚,
让白痴都能懂,而不是用术语解释术语来把事情复杂化。 当大家都不知道你在说什么,
每个人就可以有各自的解读,然后闹烘烘炒成一团,最后没有人能聚焦在真正该讨论,
检讨的问题上。 政府公告的对象是民众,有十几岁的年轻人,也有八十几岁的老人,你
本来就要尽力让每个人都懂,这样所谓的假消息才没有插针的空间。
Q: 既然会有这些辨识不完的例子,那么,经过“校正回归”后的数据有什么不合理吗?
有。第一,这个回报后的比例高到很怪。各位可以看CDC更正后增加的确诊数量每天大概
是20%到30%的。如果合理怀疑没被验到的试剂是随机抽样的(也就是政府不是刻意隐瞒
疫情),那就代表每天有大概至少20%的试剂没被验到,这是很严重的事情,绝对不该拖
到这周周末才跟大家讲。另外,政府还是没说这些压着的试剂是不是都验完
了,会不会没验完的试剂其实比你我想像的多更多。更何况现在我们的检验数还很低就塞
车这么严重,那以后呢? 去年纽约一开始Cuomo就很强调要提高检验能量,就是在处理这
种事情。第二,每天的工作量就这么大,这段期间我也没有看到增加了公务
人员还是实验室人员。那怎么周末就可以把这些压着的试剂处理完了?要知道英国为了这
件事情可是在去年九月焦头烂额了好几周。这都是应该好好说明的部分,而不是,“因为
我们进步了,所以把塞车的地方都处理完了(ref: 1)。”把事情透明化出来,民众验完
是怎么送实验室的,实验室一天验多少,验完怎么报上去的,有多少数据还没来的及处理
。你先公开,民众才能讨论、知道到底是哪边效率不好、哪边没跟上,所以才会有部分的
检验数据被压下来,你之后的东西才有公信力。不然你这次冒出一个“校正回归”、下次
发明一个“卡方补正”又给你加些确诊,这样你之前做的统计还有意义吗? 一样,你政府
既然这么重视打击假消息,那为什么还要留这么大的模糊空间而不把事情透明化,不把事
情讲清楚?