※ [本文转录自 Statistics 看板 #1PWVY5Mo ]
作者: lsshno1 ( ) 看板: Statistics
标题: [分享] Statistics Programming in CRO
时间: Thu Aug 3 00:06:22 2017
在统计版/生科产业板受过很多前辈的帮忙, 该是时候回报大家一下了,
也许在这个毕业季节可以对大家有一些帮助.
我先提一下我的经历, 大学主修统计, 研究所是公卫所生物统计组毕业.
服役后, 进入了外商CRO的统计程式设计部门服务(Statistical Programming)
将近五年的时间.
此篇文章会有比较多的英文缩写, 我会尽量一起解释其含义,
但有些比较困难翻译, 请多多包涵.
CRO是Contract Research Organization的缩写, 如同字面的定义,
接受药厂的委托并提供新药开发时临床试验的专业服务.
流程从开site, 收案, 数据分析到最后协助药厂进行
FDA(美国食药署)的新药送审(submission).
统计程式设计部门(Statistical Programming),
顾名思义就是将个案所搜集的资料, 依据计画书(Protocol),
SAP及Mock-up Shell进行统计程式分析, 最后产出统计报表(TFL).
Protocol指的就是每一个临床试验的计画书,
里面会有整个临床试验应该如何收案, 分析的所有细节.
SAP指的是Statistical Analysis Plan, 通常是计画书中关于统计分析及报表的章节,
里面会有关于统计分析所有的资讯.
Mock-up Shell比较难解释, 有点像空白的统计报表, 你要根据Mock-up Shell的范例,
依照你计画的SAP及资料产出一样的统计报表.
TFL(或TLF)其实是三种统计报表的缩写, 分别是Table, Figure及Listing.
也有公司称作TGL - G为Graph的简称.
一般来说区分TFL可以用下列方式理解 -
Table是指将资料做过处理, 例如个数, 加总, 改变值, 差异百分比, 信赖区间,
存活分析, Odds Ratio等等的结果.
Listing是直接将资料呈现出来, 通常不做任何处理.
Figure或Graph, 就是将资料利用图表的方式呈现出.
提完了基本架构, 我来稍微解释一下data flow和我们的日常工作.
通常Protocol出来后, 会设计CRF (Case Report Form, 里面就像问卷一样,
会详细的记载所有需要搜集的问题, 从身高体重, 用药时间, 不良事件反映等等),
填入CRF的资料接着进到数据库 (顺道一提, 数据库也有很多不同的架构),
资料被DB programmer (Database Programmer, 也有公司称作DM - Data Manager)
整理后, 会转给统计分析部门做进一步处理.
接着, 我们便会依照SDTMIG (Study Data Tabulation Model Implementation Guide,
此准则由CDISC所建立, 其宗旨是希望建立一个一致的资料格式, 以方便FDA统一审验,
可以参考这个网址有更详细的说明,
https://www.cdisc.org/standards/foundational/sdtmig)产出SDTM资料集.
产出SDTM资料集后,
继续根据ADaMIG (Analysis Data Model Implementation Guide,
同样此准则由CDISC所建立, 但发展没有SDTM来得完整, 目前还在慢慢增加中,
也可以参考CDISC的网站(网址太长, 自行google即可)
产出ADaM资料集.
当然, SDTM及ADaM资料集都要先写好specification, 里面会清楚定义每一个变量的名称,
长度, Format及如何产出这个变量的叙述等等. 当然, 在写SDTM或ADaM spec的时候,
一定会参考各个计画的SAP及Mock-up Shell来处理各个变量.
因为我们通常会希望在最后的TFL的时候, 不会有太大量的计算.
我们会尽量把比较复杂的运算放在ADaM资料集中
(例如缺失值的差补, 天数计算, 改变值等等)
经过千辛万苦, 我们便可以开始进行TFL的产出了. 通常根据专案的进行,
会有不同的delivery, 每次交的数量也会根据性质差异很大,
例如期中分析可能主要看一下安全性, 少许的有效性.
但是在最后的CSR (Clinical Study Report)中, 数量可能会到上百张之多.
工作实际操作内容部分, 基本上根据每家公司会有很大的出入,
我就先以我的经验来分享一下, 大家可以参考看看.
统计软件使用的是SAS, 主要是由于FDA的关系, 因此基本上这个产业都是使用SAS.
但FDA在前阵子有提到可以使用R做submission. 其他会用到R的时候,
有可能是SAP中的统计方法现在SAS还没有proc, 只能先使用R的package作分析.
SDTM/ADaM spec都是要经过QC(Quality Control)的, 也就是一位同事写,
另一位同事做检查. SDTM/ADaM/TFL的资料集, 都要经过double programming处理,
所谓double programming指的是, 两位同事在根据同一份spec的情况下,
独立完成资料集的编写, 并两者的数值要完全一样方可叫做passed QC.
当passed QC后, 我们会将资料集或TFL的结果, 给统计师(biostatistician)做QC.
一般来说统计师会自己编写程式来检查报告中比较重要的部分, 例如有效性的结果.
当统计师没有进一步的问题后, 这次的报告就可以准备交给Sponsor(药厂)了.
当然Sponsor也会有对应的员工来检查我们交出去的结果,
如果我们对于定义有歧异的时候, 我们就会需要很大量的信件来往或直接线上开会的需
要了.
拉拉匝匝说了很多, 有很多东西可能要真正进到这个产业才会知道,
但是我总觉得在生技版上, 大家提的比较多可能都偏重在临床方面, 例如CRA等等.
其实Programming/Biostatistis的需求不管在台湾或者是中国都是非常大的.
希望借由我一点点的经验分享可以让大家一起进入这个发展越来越蓬勃的产业.
如果文章有不足的地方, 还请各位前辈补充指教的.
有什么问题都欢迎提问, 我有时间也会尽量回答大家的.