[讨论] 评价黄金标准：随机对照试验的历史教我 tryit0902 PTT批踢踢实业坊

[讨论] 评价黄金标准：随机对照试验的历史教我

楼主: tryit0902 (猫空都是猫) 2017-06-02 13:58:20

评价黄金标准：随机对照试验的历史教我们的事
翻译文章：
　　Bothwell, Laura E., Jeremy A. Greene, Scott H. Podolsky and David S.
Jones (2016). Assessing the Gold Standard — Lessons from the History of
RCTs. The New England Journal of Medicine374(22): 2175-2181.
译者前言：
本文因应Laura E. Bothwell博士于中央研究院历史语言研究所的专题演讲〈The
History of Randmized Controlled Trails and the Political Battle for Reliable,
Ethical Health Research〉，故针对Bothwell博士发表于《新英格兰医学期刊》（New
England Journal of Medicine, NEJM）上的同一主题文章〈Assessing the Gold
Standard — Lessons from the History of RCTs〉进行翻译，该文收录于新英格兰医学
期刊2016年6月号〈改头换面的临床试验〉（The Changing Face of Clinical Trials）
系列文章中。
本文第一作者Bothwell博士于2014年取得哥伦比亚大学梅尔曼公共卫生学院（Columbia
University Mailman School of Public Health）历史与伦理研究中心（The Center
for the History and Ethics of Public Health）社会医学科学博士学位（Ph.D.,
Sociomedical Sciences），毕业后担任哈佛医学院及布莱根妇女医院药物流行病学与药
事经济学教学研究部门研究员，并曾应邀在美国国立医学图书馆（National Library of
Medicine）的非洲月活动进行关于种族与临床试验的历史演讲。本文的合作者还包括任教
于约翰‧霍普金斯大学医学院（Johns Hopkins School of Medicine）医学史研究所（
Department of The History of Medicine）的药物史专家Jeremy A. Greene博士。他撰
写与主编多本药物史相关著作，并和研究医学期刊背后幽灵写作（ghost writing）现象
的科技与社会研究学者 Sergio Sismondo合编人文社会科学研究中关于药物研究的读本《
The Pharmaceutical Studies Reader》。此外还有甫出版《The Antibiotic Era》一书
的哈佛大学医学院全球健康与社会医学研究所教授兼哈佛大学Francis A. Countway医学
图书馆主席Scott H. Podolsky，以及曾参与编辑《What’s the Use of Race: Modern
Governance and the Biology of Difference》一书的哈佛大学社会医学科与科学史研究
所的合聘教授David S. Jones。
过去台湾医界在相关期刊上虽偶有医学史与医学伦理的讨论文章，近期也有群学出版社出
版的译作《脏血：塔斯基吉梅毒试验〉一书，但少有文史学者参与对话。如同这篇译文里
NEJM所示范的如何创造有趣的跨领域学术空间，愿台湾医界得以与医学史、医学人文、医
学伦理、科技与社会研究有更密切的互动与对话。
正文：
过去70年来，随机对照试验（randomized, controlled trials, RCTs，又称随机控制试
验、随机分派临床试验）已重新形塑医学知识与实作。由20世纪中叶临床研究人员以及统
计学家所普及，随机对照试验旨在减少偏差并增进临床试验的准确性，并且通常做得不错
。然而过去七十年来也见证了这新的“金科玉律（gold standard，译注一）”的诸多限
制。关于医学与疾病的复杂性以及形塑医学知识生产与流通的经济和政治影响力，随机对
照试验的科学史与政治史提供了经验及教训。
随机对照试验的兴起
医师和医学研究人员数千年来已尝试使用个案报告（case report）、病例报告（case
series）、公开演示（public demonstrations）、见证（testimonials）、临床论理（
clinical reasoning）以及偶尔由临床试验来评估治疗处置。随着医学的科学性在十九世
纪末期越发占有重要地位，医师接触临床研究的条件也越加严格。到了20世纪初，改革者
已然引进许多临床试验技法来消除偏差，包含盲法（blinding）、试验组随机分派（
alternate assignment to trial groups）以及统计分析（statistical analysis）。
1,2英国流行病学家Austin Bradford Hill在1940年代统整出所谓随机对照试验研究方法
，便是立基于这些早期的策略。Hill的成果也碰上二战期间与战后英国政府对合作研究的
投入。比方说，新扩充的英国医学研究委员会（The Medical Research Council）即是支
持施行随机对照试验的架构。
随机对照试验最初受到的评价参差不齐。有的评论者担心其不给予控制组有希望的新疗法
是否有违伦理。试验进行者则反驳道，随机对照试验得以确立新疗法是否优于给予控制组
的标准照护。4其他人则认为亟需随机对照试验作为评估药厂在1950年代对新兴药物的疗
效宣称，如抗生素、降血压药以及抗精神病药物。5,6如同一名期刊编辑在1956年所告诫
的──“医师们应特别当心在药商的证据或其提供的认证基础上采纳新药。他们应当要求
由公正第三方提供和解释清楚、无偏差、具足够人数对照且经充分研究后的证据”。7随
机对照试验的拥护者人数渐渐胜过诋毁者人数。很快地，美国国家卫生研究院（U.S.
National Institutes of Health）以及其他政府部门便加入英国资助随机对照试验的行
列（如图一）。
然而在学术圈及政治圈之外，一开始并不支持随机对照试验。制药商不愿意投入资源和时
间到随机对照试验里，因为他们可以依靠专家见证以及个案报告的方式扩大产品的疗效宣
称。3这种未受管控系统的不稳定性随着1961年沙利窦迈（Thalidomide）导致的悲剧变得
显而易见，当时上千名怀孕妇女使用该药导致流行性的死胎及婴儿海豹肢畸形。美国国会
于1962年对《美国联邦食品、药品和化妆品法案》提出《Kefauver─Harris修正案》作为
回应，规定新药需在“充分和良好对照的研究中”证明有效。到了1970年，美国食品和药
物管理局（the Food and Drug Administration, FDA）将这个修正案解释为新药上市所
需的试验是随机对照试验。
这些规定伴随战后美国制药业的成长，让美国开始成为随机对照试验的首要制造者（图二
）。3欧盟理事会（Council of the European Communities）、日本政府和许多国家监管
机构很快也实行类似的管制。久而久之，国家监管机构间开始合作建立临床研究的国际标
准，进一步将随机对照试验系统化。10紧接着，为了在竞争激烈的市场中遵守管制并获得
管制下新药适应症的批准，制药业成为随机对照试验的主要赞助者。到1990年代时，制药
业已取代政府和医学界，成为随机对照试验的主要制造者（图一）。
同一时间，临床流行病学者宣传随机对照试验是让医学更理性的最佳手段。11,12在1980
年代前期学者们已经将随机对照试验当作医学知识的黄金标准。13当实证医学（
evidence-based medicine）在后续数十年间晋升为主流，方法学上证据强度金字塔概念
进而出现，其中金字塔底层是强度最弱的个案报告，金字塔顶层是强度最强的随机对照试
验。
不算金科玉律的黄金标准
然而随机对照试验并未独霸医学知识生产。快速浏览医学文献可发现过去的研究方法仍有
其价值，包含病例报告甚至是个案报告。14-16观察性研究的新方法相继出现，例如在日
常照护的情境下使用大型数据库中病人各式治疗的相对效率（efficiency）以生产比较研
究的效用（effectiveness）数据（译注二）。17,18医师除了经验资料外，也仍旧仰赖生
理学原理。冠状动脉血管成形术及血管支架置放术得以崭露头角并非因为成功的随机对照
试验，而是技术的直观逻辑以及血管造影提供令人信服的影像证据。19
当随机对照试验已成为制药研究的标准，临床研究者仍努力将其适用于其他医学领域。虽
然精神科医师进行了许多心理治疗的随机对照试验，但批评者认为以这种方式评估长期且
高度个人化的疗法并不恰当，有时甚至不可能评估。20一些心理治疗的大型试验便因这类
的方法论考量而遭忽略。21,22此外，因为随机对照试验用在精神药物比心理治疗更可行
，因此精神药物的治疗证据相较于心理治疗不成比例地更加稳固。虽说这个差异使得药厂
受益，它也可能助长精神照护往药物倾斜的不全面发展。3,23
外科手术的随机对照试验也面临相似困境。外科医师们于1950年代开始进行随机对照试验
，举例来说，运用假手术控制组测试内胸动脉结扎对心绞痛治疗的功效（efficacy）（译
注二）。24然而当越来越多外科手术的随机对照试验出现在1960和1970年代，外科医师们
却越加认清试验的限制：每个病人有着独特的病理学表现，每个外科医师有着相异的技能
，每场手术涉及关于麻醉、术前治疗、手术方法、手术仪器、术后照护的无数选择，这些
都与临床试验标准化的需求相违。25假手术不能用于重大手术中，这也限制了盲性试验的
使用时机。
这些考量在冠状动脉绕道手术的随机对照试验的争论中爆发。当首次大型的冠状动脉绕道
手术随机对照试验显示大部分患有慢性稳定型心绞痛的病人接受冠状动脉绕道手术并未带
来显著的存活效益（survival benefit）时，26,27批评者反击说：试验参与者太过健康
，外科医师过于缺乏经验，手术致死率太高，统计分析不可靠等。28,29著名的外科医师
们认为随机对照试验不适合用于手术治疗。30过去在发展冠状动脉绕道手术占有重要地位
的René Favaloro认为“随机对照试验发展至今达到如此高的科学地位及接受度，使其几
乎如同宗教上的神圣化……如果过度仰赖于它可能带来危险。”31
一个长久存在且可能难以解决的问题在于随机对照试验的时间因素考量和快步调的创新之
间存在的差异。1976年关于评估冠状动脉绕道手术最佳方式的讨论中，外科医师抱怨说：
“当我们在充分的时间内累积足够数据时，我们会发现手术技术已然有所改善或治疗方针
改变，又或是两者同时发生，而让试验结论不再适用。”32大型的随机对照试验常需要花
很多年招募病人、追踪病人、并进行分析。在治疗方针迅速演变的情况下，随机对照试验
的结果似乎在发表前便过时了。当COURAGE试验（Clinical Outcomes Utilizing
Revascularization and Aggressive Drug Evaluation，使用血管重新灌流和积极药物治
疗的临床结果评估）于2007年显示冠状动脉成形术的理想功效结果不如预期时，该治疗的
拥护者认为是因为试验中使用的传统金属支架已被涂药血管支架取代而不再适切。34这种
假定任何创新都较为优越的逻辑，创造了一个类似演化生物学上“红心皇后效应”的情境
（译注三），其中试验者得卖力跟上不断出现的创新。35
即使是健全的随机对照试验有时也无法影响医疗实作。在1960年代末期，大学联盟糖尿病
计画（University Group Diabetes Program）精心设计的试验显示糖尿病用药
Tolbutamide和心血管疾病死亡率的增加有关。然而在持续超过十年关于试验进行和诠释
的争论后，Tolbutamide的处方不减反增。类似的情节也发生在2002年，当公开募资的
ALLHAT试验（Antihypentensive and Lipid-Loweing Treatment to Prevent Heart
Attack Trial，抗高血压和降血脂治疗预防心肌梗塞试验）显示Thiazide类利尿剂学名药
在治疗高血压的效果上与新上市且较昂贵的CCB类（calcium-channel blocker）和ACEI类
（angiotensin-converting-enzyme inhibitors）药物相当时。由于这些发现受到药厂及
医师们质疑，新的抗高血压药物其销售成长仍优于旧的学名药。38另一个2002年的假手术
随机对照试验则挑战了传统认为关节镜清创手术对慢性退化性关节炎有益的看法。39尽管
这个发现被重复证实，许多骨外科医师仍不正视这些研究成果，继续执行手术。40
另一方面，一些随机对照试验的结果原已视为真相被接受，但后来证实它们缺乏外部效度
（external validity）。从建立适当的纳入条件，标准化介入治疗，到决定最相关评估
结果，随机对照试验自有其挑战。这些限制促使研究人员追求其他研究方法，虽说其他方
法也有其限制。
社会和道德上的考量也为一些随机对照试验的正当性带来挑战。1980年代后期爱滋危机使
得许多张力台面化。病患感到沮丧的是随机对照试验会延迟反转录药物的核准，需要在试
验完成前找到获得药物的门路。41临床工作者则在医师和科学家的角色之间感到冲突。42
倡议者终获临床研究的支持，变通的方式包括替代终点（surrogate end points）的使用
（译注四），美国食品和药物管理局有条件的核准，以及双轨制在试验外提供药物的管道
。不过，批评者忧心松弛的标准会减损科学的严谨性，并助长制药业推动法规松绑的危险
提案。
在发展中国家所执行的爱滋病毒感染治疗随机对照试验于1990年代爆发伦理争议，特别是
这些国家固然照护水平不高，但是否就能将原本在欧美认为是不伦理的作法合理化，把它
们当作新药的安慰剂对照组。NEJM期刊编辑Marcia Angell便谴责这些“盲从听命者”（
slavish adherence），在这个作法会导致伦理原则的退守时还依然故我地操作随机对照
试验。
上述争议引起社会科学家和政策学者的关注。正如社会学家Steven Epstein所言，随机对
照试验已变成“协商可信度、风险以及义务的重要场域”。当随机对照试验发生在医学、
社会及政治脉络中，“比起解决争议，随机对照试验会反映并推动争议自身”。46历史学
家Harry Marks认为随机对照试验不应只被视为科学技术，而是社会事件──“即使最简
单的随机对照试验也是社会秩序的协商下的产物（有些有争议，有些则无），充斥着决定
以及未经检验的前提。”36虽然随机对照试验的发展是用来生产普遍的、普世的生物医学
知识，但它们仍和在地的社会条件、经济和政治深深地纠缠在一起。
知识生产的经济学和地理学
随机对照试验也无意间限制了医学知识的生产者。当个案报告构成治疗功效的有效证据时
，单就一位医师便得以用临床经验写下可能改变临床实作的文章。然而随机对照试验需要
具大力支持的合作研究。随机对照试验随着时间已成为官僚化、公司化的大型企业，需要
所费不赀的架构进行研究设计、病人照护、纪录保存、伦理审查以及统计分析。到了21世
纪，光是第三期临床试验一次就需要花3000万美元甚至更多。47因此，即使试验资助者时
常来自北美、西欧或东亚，但研究常在其他地方进行。随之而来的是随机对照试验反映工
业化区域不成比例的研究兴趣。随机对照试验的高成本还有其他意想不到的后果：在缺乏
价格管制的市场中它们正当化处方药的高开发成本。49同时，最近政策制定者提出诸如21
世纪医疗法案（21st Century Cures Act）为管制法规带来改变，这将以增加效率的名义
降低随机对照试验在药物核准上的影响力。
此外，一方面因为试验费用高，研究者及其资助者对做出阳性试验结果有极大兴趣。相当
多的证据显示业界资助的试验比公开募资的试验更容易产生有利的结果。50而且到了1990
年代明显倾向发表阳性结果而非阴性结果，从而有损于医学知识。监管机构和期刊主编透
过要求披露资金利益冲突和注册所有临床试验来回应这些问题，努力提高随机对照试验的
透明度，以便阴性结果的试验不会单纯消失。
随着随机对照试验发展成为高成本、高获利的营销工具，临床试验产业跟着蓬勃发展。委
托研究机构（Contact Research Organization）在1970年代末期出现，如今已成为市值
250亿美元的产业。54委托研究机构促成美国的试验主持人从学术型教学医院的医师科学
家大体上转变为在私人机构中工作，以接案为主的非学术型医师。55委托研究机构也在有
利研究进行的中等收入国家寻找过去没接受过治疗的海外研究者。尽管试验产品在试验完
成后不一定能提供给当地民众，各国现正争相说服制药业和委托研究机构说该国的管制、
临床、公共卫生状况等适合执行试验。48但随着研究场域多样化，研究目标并未跟着多样
化：大多数临床研究仍集中在对公共卫生影响有限，但在高收入国家具有巨大市场潜力的
药物。低收入地区的结核病、疟疾和其他病害几乎未受到重视。制药业在全球知识生产越
发举足轻重的角色，已然对现代随机对照试验该如何供公共卫生使用提出深刻的伦理和政
策问题。
随机对照试验的过去、现在与未来
到了21世纪之初，随机对照试验已达到治疗证据黄金标准的地位，但它的限制也具有充分
证据。医师们继续追求其他比随机对照试验更快、更便宜或能处理随机对照试验无法解决
的问题的知识生产方式。然而在医学场域外，随机对照试验逐渐被效仿，甚至被理想化。
卫生政策研究者找寻如同俄勒冈州医疗保险实验（Oregon Medicaid experiment）般罕见
的实验场域供随机分配得以执行或不经意地达到随机分配。56发展经济学者将随机对照试
验视为主要的新实验方法，宣称该方法的潜力“得以在21世纪向社会政策掀起革命，如同
随机分配试验在20世纪对医学掀起的革命般”。57随机对照试验延伸到其他领域时也受到
熟悉的批评。以经济学者Angus Deaton为例，他认为随机对照试验“并不直接比其他证据
来的强，随机对照试验在证据强度上并不占有特殊地位，也不会和其他方法在证据上有强
弱的区别”。
然而尽管随机对照试验有其限制，但它已对医学研究掀起革命，并透过澄清无数处置的优
缺点来提高医疗保健的质量。受到政府资助和食品药物管理局授权的临床研究人员使用随
机对照试验来推进临床研究的理论和实作。评论者越来越善于查出随机对照试验的缺陷，
使得试验者在自身实验设计时更加警惕。从历史的角度来看，随机对照试验并非个别稳定
的技术，而是随着医师们不断对临床研究进行修订而将研究完善的方法演进。
随机对照试验作为解决医学争议唯一权威仲裁方式的想法已让位给更务实的做法。试验者
继续寻找新的知识生产方式，从统合分析（meta-analysis）到后设性的注册对照研究（
controlled registry studies）都能轻易囊括大量的多元病人。观察研究法被视为和随
机对照试验互补，而新的监测形式则可以将随机对照试验镶入电子病历的资料收集结构中
。虽说随机对照试验也许是最关键的部分，但现在也只是一堆用于评估功效以及管制治疗
市场的研究工具的一部份而已。这样的状况可能会随着近来个人化医疗或精准医疗的转向
（回溯）继续演变。由于医学关注于个别患者独特的病生理以及共有的病征，随机对照试
验产生的普同数据的适用性将受到更详细的查验。
我们已来到随机对照试验历史的关键转折。原先设计来减少研究偏差的随机对照试验，如
今已成为利益互相冲突之场域，值得仔细研究。药商和医疗器材商追求能向新群体推销商
品的数据。在临床现场实作的医师希望能有可靠的数据证明那些治疗对他们的病人最有利
。随机对照试验为上述这两个目标服务，它也同时作为历史存在反映科学、历史和经济发
展。了解其中错纵复杂的历史使我们得以更具批判力和有效地评估随机照护试验。鉴于随
机对照试验在越发不平等的全球卫生研究中所扮演的角色，我们如何展望未来的试验可以
处理对医学和全球卫生真正具有重大意义的问题？处理这些随机对照试验在历史上的偶然
面向，将会是对提升医学研究可信度和用途的学术研究者、产业研究者以及政府官员的一
场攸关其角色和义务的彻底检验。
http://stssonata.blogspot.tw/2017/05/blog-post_92.html

继续阅读

Re: [公告] 新增代理板主nknuukyo [情报] 中研院史语所专题演讲tryit0902 [讨论] “拉图，科学家与社会”研究工作坊笔记tryit0902 [情报] 经济来自激情：拉图／塔德社会学的经济tryit0902 Re: [讨论] 我思、我写、我出版 (我出版)tryit0902 Re: [讨论] 我思、我写、我出版 (我写)tryit0902 Re: [讨论] 我思、我写、我出版 (我思)tryit0902 [讨论] 我思、我写、我出版 (前言与背景)tryit0902 [闲聊] Latour演讲影片tryit0902 [讨论] 《我们从未现代过》的三个意义－雷祥麟序tryit0902