您好,欢迎您

谢丽教授:从统计学视角看临床研究结果

08月20日
作者:谢丽 上海交通大学医学院临床研究中心
来源:研值圈

本文以问答形式,教临床医生如何以统计学视角看待临床研究中的结果。

谢丽
博士,统计师

上海交通大学医学院临床研究中心统计师

中国抗癌协会肿瘤流行病学专委会委员
中国临床肿瘤学会青年专家委员会统计小组委员
中国医药生物技术协会临床研究分会委员
Cancer Treatment and Research Communications 副主编
Translational Oncology 编委会委员
上海市“医苑新星” 计划
上海交通大学医学院九龙优秀医学人才奖

问:如果一线治疗研究主要终点总生存(OS)阳性,次要终点无进展生存(PFS)阴性,能否说明OS的延长不是一线治疗方案带来的而是后线治疗带来的获益?

答:一线治疗OS阳性,PFS阴性,潜在原因有两个:一是后线治疗延长了试验组的OS,即后续治疗导致了结果的混杂;二是治疗本身引起假性进展,降低了PFS与OS的相关性,这在PD-1抗体临床研究中常见。

OS与PFS结果不一致有疾病本身自然病程的影响,有治疗机制潜在的影响,但也有统计师对数据本身采用不同的统计处理所带来的影响。

PFS是一个至事件发生时间终点,其测量是基于固定时间间隔(如8周、9周、12周)的影像学评估,而疾病进展(PD)实际发生在两次肿瘤评估之间,这就涉及到区间删失。PFS的区间删失性质本身会带来非常重大的偏倚,即信息偏倚。一是由于PD实际发生在肿瘤评估间隔区间中,因此评估间隔(如8周、9周、12周)设计的不同会影响PFS的判定偏倚,比如肿瘤评估的间隔时间过长,就会导致试验组与对照组的进展都发生在同一个计划的影像间隔之间,从而掩盖了两组之间的疗效差异;二是由于PFS的测量依赖于主观的肿瘤评估,如果试验过程中试验组与对照组的评估不均衡,也会导致两组之间PFS的比较出现非常重大的测量偏倚。

更复杂的是对PFS删失事件本身的处理。比如未PD的情况下转换为新的抗肿瘤治疗、未PD的情况下因毒性终止治疗停止肿瘤评估,这些情况算PD还是删失?根据FDA的规定,既可以算删失,也可以算PD。不同删失规则的定义对于信息删失的处理将导致结果的不同,这种结果的不同不仅会导致研究之间的PFS难以比较,也会降低PFS和OS之间的相关性。

举两个比较常见的删失情形。一是连续缺失2次肿瘤评估:假如肿瘤影像评估间隔为8周±7天,如果受试者连续18周都没有进行评估,之后又发现了PD,则很难判断PD是什么时间发生的,所以当发生这一情形的时候,要算作删失,采用Kaplan-Meier法进行统计分析时针对删失数据的处理是用未删失的数据进行替代填补,在删失量特别大的情况下,真实的PD就会发生偏倚。二是未PD的情况下更换新抗肿瘤治疗:如果使用了新抗肿瘤用药,则很难判断疗效是来自于试验用药还是新的抗肿瘤用药,一些研究中将新的抗肿瘤治疗算作删失,另一些研究中则将其算作PD。

需要注意的是,针对PFS删失的判定中缺失2次及以上肿瘤评估的情形,暗含在数据中,但不会直接在数据中收集,而且在收集到的肿瘤评估数据的开始、中间和结束各个部分,都有可能存在缺失2次及以上肿瘤评估的情况。以8周±7天为例,比如自起点后18周内无任何肿瘤评估,然后发生了死亡,则算删失;自最后一条收集到的肿瘤评估日期后18周内无肿瘤评估,然后又发生了死亡,则也算删失。

总的来说,在肿瘤领域中, 基于测量的终点指标PFS对于准确评估的要求是非常高的,如果不能够准确评估,PFS结果容易产生潜在偏倚。 

问:同样是一线或者二线治疗,不同研究之间的OS绝对数值不一样,可以比较吗?或者能够说OS更长的就是效果更好吗?如果要比较,是否看HR值更为合理,为什么?

答:绝大多数情况下,中位OS和OS率是通过Kaplan-Meier曲线估计出来的,删失的数据隐含在Kaplan-Meier曲线中,如果删失数据特别多,该曲线就不稳定。中位OS有两个特点:一是中位OS是给定数据的估计,会随着随访时间的变化而改变,存在一定程度的不稳定性,与数据成熟度的关系非常大;二是中位OS受患者基线情况影响比较大,在患者筛选基线情况较好而治疗效果一般的时候,也可能获得理想的OS数值。因此不同研究之间OS的异同,需更加关注背后的原因。不同研究结果的差异,可能是由于跨组交叉(对照组交叉至试验组)、后线治疗比例不同以及开展地区的临床实践不同(比如给药剂量,联合用药方案)。总体而言,OS的跨研究比较要谨慎

HR值代表整个随访时间内试验组和对照组单位时间的相对死亡风险比。HR=0.5可以认为是单位时间内死亡风险降低50%,但是这是单位时间内速率的比值而不是概率的比值,并不代表死亡的概率降低50%,而是单位时间速率降低了50%。HR的优点在于受到数据结构、成熟度的影响相对比较小,它是一个相对的指标,能够反映整条曲线全程的差异,而且会用到截止数据分析之前所有产生的数据。HR更适合于不同研究之间的间接比较,因为HR均衡了试验组和对照组两组的差异。

中位OS和HR值都是反映临床获益大小的指标,HR更全面、稳定,中位OS则更加直观。 

问:关于亚组分析:比如总体人群阴性,亚组结果阳性(预设亚组,非预设亚组);或者,总体人群阳性,部分亚组人群是阴性;又或者亚组人群的结果比总体人群/其他人群更好,什么样的结果才具有临床的指导意义?

答:亚组效应有2种:一种是同质性的亚组效应,即总体结果阳性,所有亚组的结果也都更优,代表“大获全胜”;另一种是异质性的亚组效应,即总体结果阴性,但某个或某些亚组的结果不错,意味着 “精准施治”。做亚组分析的目标是为了找亚组效应,阳性的临床试验我们希望“大获全胜”,阴性的临床试验我们希望找到潜在获益的亚组。

但通常来讲,大部分研究的亚组分析是探索性的,而非确证性的。亚组HR可信区间超过1、P值大于0.05并不代表该亚组治疗无效,因为结果的得出不仅取决于疗效,还取决于亚组的人数和事件数。很多研究的亚组分析并没有预先计算样本量,所以不能要求可信区间上限不超过1,应该更要关注其HR是否小于1(效应方向),以及不同组之间的差异性。亚组之间是否真正有差异还要看交互作用检验的P值是否有统计学意义。

亚组分析分为3类:探索性亚组分析、支持性亚组分析和确证性亚组分析。其中只有确证性亚组分析事先进行了统计学假设,能够确证目标亚组患者的疗效,结果具有临床指导意义。临床研究中绝大多数亚组分析为探索性,结论仅供参考。

如何提高亚组分析的可信度?研究设计阶段:定义亚组的依据必须充分,随机对照研究要做分层随机,亚组的划分为事先设定。数据分析阶段:亚组分析要做交互检验且限制数目,调整P值,以降低假阳性概率。解读阶段:研究内部各个终点指标之间保持一致性,因为不同研究终点之间具有相关性(主要终点指标、次要终点指标),在不同研究终点之间具有显著性可以减少假阳性的概率;与之前研究(如类似药物用于同一疾病治疗的结果、相同药物用于不同疾病治疗的结果、相同药物与其他药物组合的治疗结果、Ⅱ期研究的结果)保持一致性;要有可解释性(生物学合理性),换言之如果发现了一个特别有意义的阳性亚组,要有合理的解释和证据。总体来说,在解读阶段,对于事先未设定亚组分析的临床试验,对亚组结果进行解读和下结论时需要特别慎重;事后根据数据驱动寻找有统计学意义的亚组,会导致总Ⅰ类错误率膨胀,其结果通常不能用于确证亚组的有效性;用于亚组的样本量如果较少而导致检验效能不足,得出的结论也是不可靠的。

责任编辑:Linda
排版编辑:Linda