“生技与资工的亲密关系 – 跨领域产学见闻”: 统计与生医科技
统计学,过去较少受到重视,在后基因体时代它将对未来的产学界
带来什么?
“对当今毕业生的一个字:统计”(For today’s graduate, just one
word: statistics)是 2009 年刊登于纽约时报的一篇文章。文章内提
到统计这个专业在学术上及职场上的重要性,甚至引用 Google 首席经
济学家 Hal Varian 的话,“我不断强调未来十年最性感的职业将是统
计学家,而且我不是在开玩笑。”(I keep saying the sexy job in
the next 10 years will be statistician. And I am not kidding.)
下一世代的职场对统计学家的需求源于资料量的爆炸,当资料的规模大
量膨胀,肉眼的观察,或所谓的 Eyeball test 可能就不敷所需。举一
个例子,在骇客任务(Matrix)里的尼欧(Neo) 可以直接将透视那些
绿绿的符码成实体,但一般的凡夫俗子如坐在主机舱的 operator ,所
面对的萤幕有无数的资料流动,相信他需要很好的软件来分析归纳这个
庞大的资料,统计推论(statistical inference )即是分析资料重要
的基础。
在台湾求学时,曾遇到很好的统计老师(萧朱杏教授),但碍于课程的
结构设计,能汲取的知识相当有限。另外,统计系所在台湾的大学并不
普及,也反映出这个学门所受到的冷落。然而统计这个专业在过去较少
被重视的现象并非只发生在台湾,事实上在美国亦是如此。在美国高中
有所谓的大学先修课程(Advanced Placement),在高中时代所修的先
修课程学分对申请大学有帮助,也可以抵掉部份大学入门课程。先修课
程中与计量科学相关的有微积分及统计,但是美国的学生,包括不少我
的导生都认为,微积分是比较有趣的,而统计相对比较乏味,或者是次
等于微积分的一门学问。
既然统计有市场的需要,为何在教育上较少被重视呢?统计包含了最理
论的数理统计及最应用的资料分析,着重数理统计的研究及教育可能存
在于数学系,着重资料分析的则散布于其应用的学科,如流行病学、演
化学、农学院、金融或经济学。另外一个有趣的思考是,与统计有着姊
妹关系的学门是资讯工程里的机器学习(Machine learning)。美国著
名的统计学家 Robert Tibshirani 曾做了一个表格比较这两门学问,
从这个比较里观察到的是工程师使用的名词都比较酷、比较生动,而统
计学家的使用的名词都相当枯燥,例如,统计学家建构统计模型时说他
们在 Regression(回归,英文又叫退化!),而工程师说他们在
Learning(学习!)。这项差异也反映在它们在生医科学上的应用,生
物资讯(Bioinformatics)及生物统计 (Biostatistics)。前者通常是
酷炫实用的算法,而后者常是艰涩的公式推导。能乐见的是随着后基
因体时代的来临,两个领域的对话越来越多,区隔应该也会越来越不明
显。
总结来说,统计是门可以跨许多领域的学问,但它缺乏亮丽的光鲜外表,
过去也较少被重视。但资料的大量累积已经让统计学越发重要,就生医
领域来说,举凡生物资讯、临床试验、生态演化、流行病学,都需要统
计学。在资源相对缺乏的时代,在我们投注大量资金生产更多生医资料
的同时,或许也该想想如何用更好的分析,在已公开分享的数据库中挖
取更多有用的知识。后者的金钱投资相对是较少的,更需要的是人才,
这应该是台湾较丰沛的资源。