您好,欢迎您

梁师授课 斐然成章 | 梁斐教授:临床研究数据众多,中位OS、中位PFS和HR哪个更值得关注?

2023年03月31日
整理:肿瘤资讯
来源:肿瘤资讯

临床研究离不开数据统计,为解决临床医生困惑,帮助临床医生更好地理解临床研究中的数据,【肿瘤资讯】邀请复旦大学附属中山医院梁斐教授开设“梁师授课 斐然成章”系列课程,以著名临床研究为例,深入浅出地讲解统计学要点。这一期主要内容为大家讲解中位值和HR的正确解读。

               
梁斐
教授

复旦附属中山医院 生物统计室 统计师
上海抗癌协会癌症预防与筛查委员会委员
CSCO青年委员会统计小组成员
以第一作者或通讯作者在JCO, JNCI, Annals of Oncology, European Journal of Cancer 等杂志发表SCI论著11篇,累计影响因子超过100
以第一作者在NEJM, Lancet, Lancet Oncology, JCO 发表Letter 8篇
JNCI, Clinical Cancer Research, Theranostics审稿人
主要研究方向:临床试验设计及统计,临床研究方法学

K-M曲线变化受多因素影响,临床解读存在多种误解

以肺癌领域大家熟知的KEYNOTE-024研究为例,在一次结果更新中发布了中位总生存期(mOS)的结果,两组分别为14.2个月对30.0个月,HR 0.63,p=0.002。这3个指标是临床医生最常关注的指标,它们背后是不同的统计学方法,也就是生存分析的“三驾马车”: K-M曲线、Log-rank检验和Cox模型。

K-M曲线用来描述或者展示生存曲线的形状,把无进展生存期(PFS)和OS图形化,通过K-M曲线可以估计每个点的生存率、12个月/24个月的OS/PFS率、中位PFS/OS等等。但是它属于单纯的描述性的统计学方法,仅有展示功能。如果我们要比较两个曲线之间是否存在统计学差异,则需要采用Log-rank检验计算p值。但因为两组差异和样本量也有关系,为量化差异大小,就需要Cox模型计算出HR及其可信区间,量化两组之间的差异大小。

中位PFS和中位OS临床医生应用较多,理解也更加直观。中位PFS一般理解为一半的患者无进展生存或者存活的时间。实际上临床研究分析的过程中,是根据KM曲线与生存率50%的交叉点来决定,在极端的情况下只需要一个患者进展和死亡,中位的PFS跟OS就能估计出来。所以用中位PFS来衡量临床获益的大小,会存在两个问题:第一,中位PFS、OS只是一个暂时的估计值,会随着随访时间的变化而改变;第二,中位PFS、OS受到基线情况影响比较大,在患者筛选基线好而药物效果一般的时候,也可能获得理想的数值。

以KEYNOTE-021G研究为例,它是第一个K药联合化疗对比化疗治疗非小细胞肺癌的随机对照临床研究,主要终点为客观缓解率(ORR),次要终点为PFS。第一次报告是随访时间达到10.6个月时,中位PFS 13个月vs8.9个月,HR是0.53,p值是0.010。等到中位随访时间达到14.5个月的时候,它的中位PFS变成NR,也就是无法预估,因为PFS曲线跟生存率50%的线没有交差点。等到最后一次更新随访23.9个月的时候,中位PFS变成24个月。可以看到3次结果中位PFS发生了非常明显的变化。作为KEYNOTE-021G研究的确证性研究,KEYNOTE-189研究的中位PFS只有8.8个月,差距非常明显。其中的原因除了随访时间不同外,还与基线密切相关。

另外一个例子是, PACIFIC研究中位PFS达到了16.8个月,对照组是5.6个月。在PACIFIC模式基础上再加上新的药物,能不能继续提高PFS?这是今年的JCO上发表的COAST研究,但该研究中度伐利尤单抗单药中位PFS只有6.3个月,与PACIFIC研究有很大差距。可以看出基线因素对中位PFS具有明显的影响。

在KEYNOTE-021G研究中,中位值随着随访时间不断变化,涉及到K-M曲线的基本原理。在生存分析中的数据包含两个维度:时间和状态。状态分为两类:事件和删失。所有在数据截止日期未发生事件的患者都定义为删失,它对于K-M曲线的稳定性和结果的可信性有非常明显的影响。K-M曲线的基本原理是时间为0时生存率100%,随着随访时间的延长,事件发生导致曲线不断下降。而删失不会改变K-M曲线的形态,只会留下一个标记。K-M曲线的下降幅度取决于PFS率(N/Number at risk),N代表这个时间点发生的事件数,Number at risk代表真正随访的时间点而没有进展的患者数。在K-M曲线的后半段我们经常会看到断崖式下降的现象,实际上是因为Number at risk太少了,不代表大量的患者进展和死亡。

HR结果更加全面,更适合不同研究的间接比较

HR代表整个随访时间内试验组和对照组单位时间的相对死亡风险比。HR小于1代表单位时间内死亡风险降低,HR大于1代表单位时间内死亡风险增加。HR等于0.5,可以认为是单位时间内死亡风险降低50%,但是这是单位时间内速率的比值不是概率的比值,并不代表死亡的概率降低50%,而是每单位时间的速率降低了50%。也就是说相当于所有的患者从100%的这个点向0%奔跑其奔跑速度的变化,相对来说不太容易理解。

HR的优点在于受到数据结构、成熟度的影响相对比较小,它是一个相对的指标,是整条曲线全程的差异。所以我们计算样本量的时候是基于HR,而非中位值。HR的结果更加全面,它会用到截止数据分析时所有产生的数据。另外,HR更适合于不同研究之间的间接比较,因为HR均衡了试验组和对照组两组之间的差异。

中位值和HR都是表示临床获益大小的,HR更加全面稳定,中位值则更加直观。在满足一定前提的情况下,中位值和HR也可以产生换算的关系,HR=对照组中位值/试验组中位值。但是中位值说到底只是点的数据,并不能反应临床获益的全部情况,在某些情况下有可能夸大或者低估临床获益。

在LUX-Lung7研究中,试验组的中位PFS只提高了0.1个月,但是p值是0.017,HR是0.73。出现这种情况的原因,就是试验组和对照组两条曲线过了50%之后才慢慢分开,但是后面分开的情况对中位值不产生任何影响。相反地,在某些情况下中位值有可能夸大获益。如中位OS从25个月提高到75个月,在任何领域都是划时代的突破,而HR等于0.78,差强人意。两者很可能描述了同一个研究结果。

为了量化抗肿瘤药物的临床价值,近几年ASCO和ESMO分别开发了临床获益量表,用来评价各个治疗方案临床价值的大小。临床获益量表综合了疗效、毒性、生活质量以及价格等各个方面,代表了ESMO和ASCO对于各个疗效评价指标的认可程度。无论是ESMO还是ASCO量表都只对阳性研究进行评价,未达到统计学显著性的研究,即使有获益的趋势也不符合评估条件。

可以看到现在ESMO所有的指南里面,除了证据级别之外,还有MCBS也就是ESMO临床获益评价量表的得分,分数越高获益更加突出。ASCO的Value Framework与ESMO是有差异的,它的评价更加直观、更加简单,临床获益只看HR,基本上HR是ASCO的Value Framework的唯一决定性的指标,另外还有额外的毒性得分、长期生存率的得分。

在GEMSTONE-302研究中,整体的HR是0.48,降低了52%的疾病进展和死亡风险,获益非常突出,中位PFS也提高了4个多月。在鳞癌领域HR是0.34,获益是更加突出的。将HR进行跨研究比较,舒格利单抗可能是所有的免疫治疗药物当中获益最突出的药物。

内容小结

  • 中位值也就是中位PFS和OS是临床医生非常关注的,但它和随访时间、研究成熟度有很大关系,需要谨慎看待

  • 在满足等比例风险假设的情况下,HR是更加全面和稳定的评价指标,也是ESMO和ASCO评价量表中更加看重的指标

  • 跨研究比较时,HR是所用的主要指标。在相关的免疫研究当中,GEMSTONE-302研究IV期人群PFS HR为0.34,证实了舒格利单抗的领先地位


择捷美.png

择捷美说明书二维码


PP-CEJ-CHN-0627
到期日:2025-3-1

辉瑞logo.png


责任编辑:肿瘤资讯-Cheron
排版编辑:肿瘤资讯-LSL



               
版权声明
版权归肿瘤资讯所有。欢迎个人转发分享,其他任何媒体、网站如需转载或引用本网版权所有内容,须获得授权,且在醒目位置处注明“转自:良医汇-肿瘤医生APP”。