您好,欢迎您

IMbrave150研究解读:复盘,猜想和疑问

2020年01月12日
作者:大飞哥
来源:"飞哥谈统计"微信公众号

在今年的ESMO Asia会议上公布了IMbrave150研究的结果,在研究预设的第一次期中分析中Atezolizumab+Bevacizumab(T+A)相比于索拉非尼可以显著延长患者的OS, PFS,提高ORR,改善生活质量,实现了对统治肝癌一线治疗近10年的索拉非尼的四杀,标志着晚期肝细胞癌(HCC)一线治疗正式进入免疫时代。在带来惊喜之余,大家对IMbrave150的结果仍然存在一些疑问:T+A组的中位OS到底能达到多少?期中分析的结果是否足够稳健,会不会夸大药物的效果?本研究将对IMbrave150研究的设计和结果进行解读,并对以上疑问提出自己的看法,供大家参考。

IMbrave150研究的设计

IMbrave150研究的设计如上图所示,主要研究终点有两个:OS和独立评价委员会评估的PFS。但是在最初的设计方案中,PFS并没有被研究者设定为共同主要研究终点,而是次要研究终点,另一个共同主要研究终点是ORR。从IMbrave150研究在上登记的信息我们可以看到,在2018年2月的最早的版本中,主要研究终点是OS和ORR,PFS是次要研究终点(https://clinicaltrials.gov/ct2/history/NCT03434379?V_1=View#StudyPageTop

而在2018年11月,研究者更新了ClinicalTrial.gov上的信息,主要研究终点从OS和ORR,改成了OS和PFS,而ORR变成了次要研究终点https://clinicaltrials.gov/ct2/history/NCT03434379?V_13=View#StudyPageTop

对于三期临床研究,改变主要研究终点等重大改变其实是非常常见的,多伦多大学的Eitan等人通过对2017-2018年发表在NEJM, Lancet和JAMA上的RCT分析发现,高达54%的研究在进行过程中曾经对主要研究终点做过修改【1】。这类重大改变需要在不破盲或未对数据进行任何分析,且不增加研究犯一类错误的概率的前提下进行,并且在研究报告中明确报道修改的目的和过程。

为何IMbrave150研究将其中一个主要研究终点从ORR改成PFS呢?作者无责任推测,主要是前序的T+A连用的Phase Ib(GO30140, NCT02715531)研究结果的不断更新给IMbrave研究者提供了更多的信息。GO30140研究中HCC队列的设计如下图所示。GO30140研究本身是一个篮子试验是,探索T+A在对PD-L1单药不敏感的多个实体瘤(肝癌,胃癌,食管癌和胰腺癌)中的疗效和安全性,其中Arm A和Arm F入组的是晚期肝癌患者。

研究者最早在在2018年6月的ASCO会议上,报道了Arm A的结果,在可评估疗效的23人中,研究者评估的ORR是61%,独立评审委员会(IRF)评估出的ORR是65%。而此后随着入组患者人数不断增加,ORR的数据也在不断更新,2018年9月的CSCO会议上更新的35例可评估患者的ORR是49%,而2018年10月ESMO会议上73例可评估患者的研究者评估的ORR为32%,IRF评估的是27%(最新报道,104例可评估患者的ORR是39%)。因此研究者在2018年10份的时候已经知道,Phase Ib研究ORR的结果并不如最初评估的那么惊艳(从61%到32%)。因此紧接着在2018年11月改变了IMbrave150研究的方案。采用随机设计的Arm F,是在2018年3月(也是IMbrave 150 研究开始入组的当月)才开始加入到GO30140研究中的,到2018年10月时可能没有足够的PFS数据供分析,因此IMbrave150研究将共同主要研究终点从ORR变成PFS应当是基于GO30140研究Arm A ORR结果的不断更新。但是Arm 的PFS的阳性结果是否对IMbrave 150研究的期中分析策略有所影响,目前还不知道,等正式文章发表以后,看到详细的研究方案,才能更加全面的分析IMbrave150研究的演变及其原因。

其实对于晚期肝癌来说,OS才是毫无疑问的最主要的研究终点,之前所有与索拉非尼进行比较的三期临床研究无一例外都是采用OS作为主要研究终点。因为对于生存期较短的晚期肿瘤(肝癌,胃癌,胰腺癌等),仅仅提高PFS而不能提高OS,临床意义十分有限。虽然IMbrave研究设定了PFS作为共同主要研究终点,但是从α的分配方案中可以看到,PFS只分配到了0.002的α,只占总体α的4%(0.002/0.005),而OS分得了剩余的0.048,而OS总体的0.048又在期中分析和最终分析中进一步分配,其中第一次期中分析分得了0.0033。实际上IMbrave研究的α分配方案或者说一类错误(假阳性)控制方案比在ESMO Asia上面展示(见下图)的要更加复杂,还涉及到α的循环利用(即PFS和ORR分配到的0.002有可能传递给OS),但是由于IMbrave150研究的结果特别突出,不用循环利用α就已经达到了非常显著的统计学差异,因此研究者为了不让临床医生困惑,只展示了简化后的方案,但是添加了一个注释:Alpha recycling graphical method was designed but not shown because all endpoints passed at their initially allocated alpha.

Imbrave研究结果

截至2019年8月29日,研究的中位随访时间是8.6个月,T+A组死亡96人(29%),索拉非尼组死亡65人(39%)。T+A组中位OS尚未达到,而索拉非尼组中位OS是13.2个月(95%CI:10.4-未达到),T+A组相比于索拉非尼组降低患者死亡风险42%, HR=0.58(95% CI: 0.42-0.79, P=0.0006)。需要指出的是,由于OS的结果是期中分析的结果,具有统计学意义的界值不是通常我们认为的0.05,也不是OS分得的0.048,而是基于O’Brien-Fleming法在期中分析和最终分析之间分享总体的α。根据IMbrave150研究的分析方案,第一次期中分析如果要宣布OS结果达到统计上的显著性,需要P<0.0033,是一个非常严苛的标准,目的是尽量减少期中分析假阳性的概率。而实际结果P=0.0006,显然已经超过了预设的界值,可以宣布OS的结果是阳性,提前终止试验(但是随访还是会继续进行),这时期中分析的结果就是主要研究结果(Primary results)。

T+A组中位PFS6.8个月(95% CI,5.7-8.3),而索拉非尼组中位PFS是4.3个月(95%CI:4.0-5.6),T+A组相比于索拉非尼组降低患者疾病进展风险41%, HR=0.59(95% CI: 0.47-0.76, P<0.0001)。

亚组分析结果

从OS亚组分析的结果来看,T+A组在各个亚组都观察到了明显的生存获益,除了在巴塞罗那分期为Stage B的亚组,OS似乎没有获益,HR=1.09(95%CI, 0.33-3.53)。这是否意味着Stage B的患者不能从T+A中获益呢?这一亚组分析的结果需要谨慎对待,首先整个研究的数据成熟度较低,具体到某个亚组死亡人数就更少了,Stage B亚组只有87人,而Stage B的患者预后比Stage C的患者更好,这个亚组的OS成熟程度非常之低,作者估计这个亚组死亡人数合计不超过10个人,因此结果的偶然性非常大,在这一亚组T+A组和索拉非尼组的生存曲线完全没有分开,需要更长随访时间。在更加成熟的PFS亚组分析结果来看,Stage B亚组是有明显的PFS获益的,因此可以预计随着随访时间的延长,我们也可以在这个亚组看到T+A的OS获益。

猜想:T+A组的中位OS能达到多少?

虽然IMbrave研究的最终结果已经尘埃落定,但是对于广大患者和医生最为关心的T+A组的中位OS,由于目前数据成熟度较低,死亡人数不够,因此目前无法估计。从目前的生存曲线来看,超过Phase Ib研究的17.1 个月的OS应该不成问题。

从T+A组的OS曲线可以看出,从13个月以后,OS曲线呈现一个平台状态,即曲线不再下降,只有表示删失的小竖线。删失的原因最有可能是在最后一次随访时患者仍然是在存活状态,而不是因为失访导致删失。如果是这样的话,意味着在随访时间最长的22个(怎么得来的?作者手动查的)患者中,没有任何一个患者死亡,这些很有可能是免疫治疗中的潜在长期生存患者。从同为HCC一线治疗的Checkmate-459研究的OS曲线可以看出,虽然O药单药没有击败索拉非尼(OS延长了近2个月,但是差异没有达到统计学意义),但是有近三分之一的患者在随访达到30个月时仍然存活,这些患者很有可能成为长期生存者。如果A+T能将这一比例进一步大幅提高,甚至提高到50%以上,那么其中位OS可能大大超过预期。

一种比较简单直观的估计方法, 假设两组生存都服从指数分布的话,索拉非尼组患者中位OS为13.2个月,OS的HR=0.58,预计A+T组的预计OS应该是22.8个月(13.2/0.58)。但是这种估计是有前提的,在很多情况下,两组中位生存的比值并不等于HR,如Checkmate-459研究,两组中位比值=0.90(14.7/16.4),高于实际的0.85,这是因为O药单药相比于索拉菲尼15%的死亡风险的降低主要是由于30%的长期获益患者所驱动的,这30%的长期获益患者生存期无论3年还是5年对O药组的中位OS不会有任何影响,而对HR是有影响的。这也中位OS的一个局限性。

因此T+A的组合确实确实能够提高长期存活的患者的比例的话,如果能超过50%的话,中位OS达到30个月也不是不可能,如果T+A只是延长了部分患者的生存,没有大幅增加长期生存患者的比例的话,中位OS可能比23个月要短。

无论具体中位OS是多少,临床医生都要避免把一个临床研究的结果简化成一个单一的中位OS,还要关注HR以及实际长期生存患者的比例以及安全性和生活质量。

需要指出的是,对索拉非尼组13.2个月的中位OS也不是非常稳定的,目前的中位OS只是根据现有数据的KM曲线估计出来的。在随访到13.2个月的时候,对应的Number at risk 人数只有10个人左右,意味着索拉非尼组目前为止实际已知的OS时间超过13.2个的人只有10个人左右,其余患者要么死亡时间早于13.2个月,要么随访时间不够。随着随访时间的延长,索拉非尼组的OS同样有可能发生变化。这就是中位OS的另一个局限性,随访时间较短时不太稳定。

疑问:期中分析的结果会夸大药物的实际效果吗?随着随访时间延长,结果会逆转吗

这个疑问不是作者提出来的,是在ESMO Asia会议上点评专家提出来的。点评专家认为目前IMbrave150研究发生的死亡事件数仍然较少,数据成熟度只有32%(161/501),也只有研究计划最终分析需要的312例事件数的一半。而期中分析而提前终止的研究通常被认为会“夸大”药物的实际疗效。点评专家还引用了两篇文献,其中一篇2010年发表在JAMA【2】,该研究对比了因期中分析而提前终止的随机对照研究和按计划完成的随机对照研究的研究结果,发现前者的总体疗效要比后者的总体疗效好29%(R of RR=0.71, 95%CI:0.65-0.77)。点评专家据此估计,在所有事件发生后,IMbrave研究的实际疗效最差有可能是 0.82(0.58/0.71)。

本人是非常欣喜的看到临床医生会关注到这类临床研究方法方面的文章,并且在ESMO Asia这么有影响力的大会上引用,因为本人除了做统计师之外,主要的研究方面就是临床研究方法学(Clinical Research Methodology)。这充分说明了这类研究是具有很高的指导价值的。但是本人还是要破一下冷水,基于JAMA这篇文献来推测IMbrave研究的实际疗效有失偏颇。原因很简单,JAMA这篇研究比较的是因期中分析提前终止的RCT和正常完成(没有预设期中分析或者期中分析没有达到统计学显著性)的RCT的疗效。正是因为部分RCT疗效特别突出,因此才有可能在期中分析时就能达到主要研究终点,因此将因期中分析而提前终止的RCT和按计划完成的RCT进行疗效对比,必然是前者疗效更好,如果疗效不是更好的话,说明整个期中分析运行逻辑出了问题。这样的疗效差异不能说明期中分析会高估治疗效果,而是期中分析把疗效更好的RCT提前筛选出来了。打个比方,一个班有20个同学,将期中考试的前十名同学的分数跟剩余同学的期末考试分数进行对比的话,假设期中考试和期末考试难度一致,必然是期中考试前十名的同学分数更高。更加合理的比较方法是,比较这10名同学期中和期末考试的成绩。点评专家引用的另一篇发表在Stat Med上的文章【3】就是回答的这个问题,该研究通过数学模型模拟发现,同一个研究,如果因疗效突出提前终止的相比于按原计划完成,有可能会高估实际的疗效,但是高估程度不会超过10%。高估的一个主要原因就是趋中心回归理论(Regression toward the mean)。一个RCT的疗效在整个随访过程中并不是一直不变的,有可能在其实际疗效上下不断波动,期中分析得到的高于实际疗效的结果,等到最终分析时可能就变成略低于实际疗效的结果,而期中分析如果得到低于实际疗效的结果,通常会达不到提前终止的标准。趋中心回归理论可以解释很多现象,例如,一个球队在上一届联赛中表现出色,在下一届联赛的表现往往不如上一届;一个走红的文学作品(小说、电影或电视剧等),其续集(如果有的话)往往令人失望等。但是由于三期RCT研究的期中分析精心设计的,通常来说偏差不会太大。美国国家癌症研究院2009年发表于JCO上的文章【4】,基于对1990到2005年之间完成的RCT的回顾性分析表明,在纳入的18个RCT中,有17个期中分析的结果和经过更长随访时间后的结果相比,基本一致或者只是轻微夸大。因此无论数据模拟和实际经验都不支持期中分析可能明显夸大药物效果的结论,相反良好设计的期中分析可以更快的把好的治疗方案带给广大患者。IMbrave150研究原本预计的最终分析的数据截止日期是2020年-11-29日,期中分析使得本研究提前一年多得到主要结果,无疑会造福更多的患者。 

除了趋中心回归导致的疗效差异外,在以OS作为主要研究终点的研究中,Cross-over和后线治疗,也有可能稀释期中分析得到的结果。随着索拉非尼组患者在进展后接受二线的免疫治疗,IMbrave研究的OS获益可能会被稀释。不过需要指出的是,免疫治疗目前在HCC的后线治疗中还没被证实可以显著延长患者的生存获益,而且随着随访时间的延长免疫治疗疗效持久的效果可能更加显现,因此随着OS数据的成熟,目前观察到的42%的生存获益不一定会被明显稀释。以K药用于PD-L1高表达NSCLC人群一线治疗的KEYNOTE-024研究为例,该研究也是在OS的期中分析中就达到了显著的统计学差异,HR=0.60(95% CI, 0.41 to 0.89; P = 0.005),数据成熟度35%(108/305)【5】。在后续的OS更新结果中,数据成熟度达到55%(169/305),Cross-over的比例达到了54%(82/151),而HR=0.63 (95% CI, 0.47 to 0.86, P=0.002)【6】。此外CheckMate-057, CheckMate-017,CheckMate 067研究的更长随访时间的OS结果跟首次报道的结果也高度一致。

总结一下,T+A的联合疗法无疑给晚期肝癌患者的带来了明显的生存获益和生活质量的改善,成为新的一线标准治疗。两药联合到底能将晚期HCC患者的中位OS提高到何种水平,还需要更长的随访时间才能得到,有可能会带来更大的惊喜。大家可以对期中分析结果的稳健性保持信心,虽然随着随访时间的延长,疗效有可能因Cross-ver或后续治疗等原因被稀释,但是基本没有可能改变现在的研究结论。

备注:对IMbrave150研究的解读仅代表个人观点,不代表任何单位和团体,也不构成任何治疗建议!

排版编辑:DD
参考文献

1.     Shepshelovich D, Yahav D, Tibau A, Amir E. Assessment of frequency and reporting of design changes among clinical drug trials published in influential medical journals. European journal of internal medicine 2019.

2.     Bassler D, Briel M, Montori VM, et al. Stopping randomized trials early for benefit and estimation of treatment effects: systematic review and meta-regression analysis. Jama 2010;303:1180-7.

3.     Walter SD, Guyatt GH, Bassler D, Briel M, Ramsay T, Han HD. Randomised trials with provision for early stopping for benefit (or harm): The impact on the estimated treatment effect. Statistics in medicine 2019;38:2524-43.

4.     Korn EL, Freidlin B, Mooney M. Stopping or reporting early for positive results in randomized clinical trials: the National Cancer Institute Cooperative Group experience from 1990 to 2005. Journal of clinical oncology : official journal of the American Society of Clinical Oncology 2009;27:1712-21.

5.     Reck M, Rodriguez-Abreu D, Robinson AG, et al. Pembrolizumab versus Chemotherapy for PD-L1-Positive Non-Small-Cell Lung Cancer. The New England journal of medicine 2016;375:1823-33.

6.     Reck M, Rodriguez-Abreu D, Robinson AG, et al. Updated Analysis of KEYNOTE-024: Pembrolizumab Versus Platinum-Based Chemotherapy for Advanced Non-Small-Cell Lung Cancer With PD-L1 Tumor Proportion Score of 50% or Greater. Journal of clinical oncology : official journal of the American Society of Clinical Oncology 2019;37:537-46.

相关阅读
评论
2020年07月14日
苗晴~🐱
恒瑞 | 肿瘤内科
学习了!期待多重性检验分析
2020年06月23日
Adrien
未填写 | 未填写
学习了
2020年01月13日
李海志
常州市中医院 | 乳腺外科
解读细致,引人深思。