首页 > 文章详情

FLAURA研究OS结果：亚裔人群不获益，可信度几何？

2020年01月12日

作者：大飞哥

来源："飞哥谈统计"微信公众号

在今年的ESMO大会上，FLAURA研究公布了期待已久的最终OS结果，并且在近日全文发表在NEJM上。但是在欣喜之余，亚组分析的结果又给中国的临床医生带来疑惑，在亚裔人群，奥希替尼相比于对照组，似乎没有获益。如何看待这一分析结果?这一亚组分析的可信度如何？作者将就这一问题提出自己的看法，供大家参考和讨论。

FLAURA研究结果

在FLAURA研究的最终分析中¹，一线接受奥希替尼治疗的患者相比于接受厄洛替尼或吉非替尼的患者，死亡风险降低了20%（HR=0.80 [95% CI, 0.64–1.00],P=0.046）,中位OS从31.8个月提高到38.6个月，延长了6.8个月.

然FLAURA研究总体OS结果是阳性的，但是亚组分析的结果显示，在亚裔人群，奥希替尼相比于一代TKI，并没有显示出更好的疗效，HR=1.00 (95% CI, 0.75–1.32)

该结果引起了广泛的关注，在国内关注程度甚至可能超过了FLAURA研究的OS结果本身。这样一个亚组分析结果可信度如何？是否可以用来指导临床实践呢？在具体分析FLAURA研究亚组结果之前，先跟大家聊聊亚组分析。

亚组分析的可信度如何

亚组分析的目的是探索试验药物在具有不同特征的亚组人群中的疗效是否一致。若发现疗效在不同亚组之间存在明显差异，则认为存在亚组效应。飞哥之前与肿瘤医院张盛教授合作发表在JCO上的文章就发现，亚组分析在肿瘤领域的RCT中非常普遍，而且几乎有一半的RCT宣称自己发现了某个亚组效应²。但是必须指出的是，对于一个RCT，亚组分析是次要分析，本质是探索性的，无法得到确证性的结论，可信度一般比较低。飞哥给大家举几个例子，让大家对亚组分析的不靠谱程度有个直观的了解。

雷莫芦单抗(Ramucirumab)在一个名叫REGARD(JVBD)的三期RCT中³，作为二线治疗，相比于安慰剂组，可以显著延长晚期胃癌患者的生存（中位OS 5.2 vs 3.8, HR=0.78 [95% CI, 0.60–0.998], P = 0.047）。申办方以此为基础向FDA申请晚期胃癌二线适应症的审批。但是FDA并没有马上根据REGARD研究的结果批准雷莫芦单抗，除了P=0.047,很接近0.05以外，FDA最大的顾虑是REGARD亚组分析的结果显示，雷莫芦单抗在女性人群中并没有显示出任何效果，HR=1.431 (95% CI, 0.852-2.405)。大家可以对比一下，REGARD研究男女性的疗效差异甚至比FLAURA研究中亚裔和非亚裔人群的差异还要明显。FDA当时考虑需要申办方再做一个三期RCT来验证REGARD研究的结果，特别是在女性人群的效果。

FDA犹豫时，申办方提交了另一个名叫RAINBOW(JVBE)的三期RCT研究的结果4，该研究表明，雷莫芦单抗联合紫杉醇对比紫杉醇单药可以显著延长二线胃癌患者的总生存（中位OS 9.6 vs 7.4, HR=0.81 [95% CI, 0.68–0.96], P = 0.017）。更重要的是，在纳入了更多女性患者后，RAINBOW 研究的亚组分析表明，女性患者同样可以从雷莫露单抗的治疗中获益，HR=0.672 (95% CI,0.483-0.935)，而且效果似乎超过了男性(HR 0.672 vs 0.814)。因此FDA认定之前REGARD研究的亚组分析结果是偶然发现“FDA concluded that differences in treatment effects in women represented chance findings”5。

于REGARD和RAINBOW两项研究，FDA先后批准雷莫芦单抗单药或者联合紫杉醇作为晚期胃癌的标准二线治疗。此外大家还可以注意一下这两项研究中种族或地区亚组分析的结果，在REGARD研究中，亚裔人群获益最明显，而在RAINBOW研究中Geographic region 3(Japan, South Korea, Hong Kong, Singapore, and Taiwan)人群获益最不明显，两个研究又是看似相反的结论。

癌领域有没有类似的例子呢？当然有，不同性别亚组在Permbrolizumab一线治疗中的疗效的差异就是一个典型例子。在KEYNOTE-024研究中⁶，男性人群的OS获益明显优于女性人群（HR, 0.54 vs 0.95）， PFS的差异同样明显（HR, 0.39 vs 75）。而在KEYNOTE-189⁷和KEYNOTE-407⁸研究中，这个趋势完全反了过来，女性人群的OS获益明显好于男性人群。而在样本量最大（几乎等于其他三个研究之和）的KEYNOTE-042研究⁹中，不同性别的疗效几乎没有差异 (见下表)。如果我们参考FDA 基于REGARD和RAINBOW研究的结论，我们可以认定Permbrolizumab一线治疗中的疗效的在不同性别人群的差异就是一个典型的假阳性亚组效应。

表格.png 除了以上几个例子外，临床研究方法学的文章无一例外的都支持亚组分析可信度不高的结论。飞哥今年发在European Journal of Cancer 的一篇论文¹⁰，比较了针对同一试验药物，采用同一对照组，在同一治疗背景下开展的随机对照二期研究和随机对照三期临床研究的结果，其中有12个三期临床研究是基于随机对照二期研究的亚组分析的结果开展的（即随机对照二期临床研究的结果是阴性或者不够突出，但是发现在某个亚组人群疗效特别突出，因此开展三期研究来验证该药物在这个亚组是否真的有效），最终只有1个三期研究成功，其余11个全部失败。不到10%的成功率即使在三期临床研究成功率一向不高的肿瘤领域也是非常惊人的。无独有偶, JAMA Intern Med上2017年发表的一篇论文也评估了RCT中亚组效应的可信度，基于现有标准，这些亚组分析的可信度都非常低，此外有5个RCT的亚组效应，曾经试图通过后续新的RCT或meta分析进行验证，但无一例外都失败了，证明原先的亚组效应是假阳性结果¹¹。虽然飞哥对亚组分析持怀疑态度，但是飞哥并未完全否定亚组分析的作用，毕竟确实存在着通过亚组分析改变临床实践的例子，比如在肺癌领域EGFR突变状态是EGFR TKI的疗效预测因素，在肠癌领域KRAS状态可以预测西妥昔单抗和帕尼单抗的疗效，都是成功的亚组分析改变临床实践的例子。最近的一个成功验证亚组分析结果的例子，就是REACH-2研究¹²，成功的验证了在REACH研究中¹³的亚组分析结果，即雷莫芦单抗作为二线治疗可以延长甲胎蛋白浓度＞400 ng/mL的肝癌患者的OS。但是亚组分析改变临床实践只是例外而不是常规。

FLARUA研究的亚组效应的可信度如何

验证亚组分析结果是否可信的金标准就是新的验证性RCT研究，但是通常验证性RCT很少开展，那么在没有新的验证性RCT的情况下，如何判断亚组分析的可信度呢？四川大学的孙鑫教授是国际上研究亚组分析的权威，曾经在BMJ和JAMA发表多篇有关亚组分析的研究论文，孙鑫教授及其导师循证医学的奠基人之一Guyatt教授提出了判断亚组分析可信度高低的9个标准¹⁴：

1）是否是基线变量

2）是否是分层因素

3）是否是预设亚组

4）亚组分析数目是否有限（＜5）

5）是否进行交互检验，且P<0.05

6）亚组效应的方向是否与预设一致

7）亚组效应是否与先前研究具有一致性

8）是否在不同研究终点之间都存在亚组效应

9）是否存在间接证据（生物学原理，动物实验等）可以解释亚组效应

我们逐个分析FLARUA研究亚裔人群亚组效应的可信度:

首先种族（亚裔 vs 非亚裔）是一个基线因素，而且是仅有的两个分层因素之一（另一个是EFGR突变类型）。这就意味着，在亚裔人群这一亚组，奥希替尼和对照组的人群的基线信息是平衡的，FLARUA研究的研究者在新英格兰全文的附件中还特别报道了亚洲人群和非亚洲人群EGFR突变类型的分布，可以看到无论亚裔还是非亚裔，EGFR突变类型在奥希替尼组和对照组的分布几乎完全一致，没有任何差异，所以EGFR突变类型不能解释为何亚裔人群不能获益。即使进行多因素Cox分析，调整其他因素（EGFR突变类型，吸烟状态，年龄等）亚裔人群的OS结果，HR=1.00也几乎不会发生任何改变。而且亚裔人群占总体人群的比例是62%（347/556），是一个非常大的亚组，通常来说HR的点估计是比较稳健的。

是否是预设亚组：FLARUA研究Protocol里面预设了针对种族（亚裔 vs 非亚裔）的亚组分析。

亚组分析数目是否有限（＜5）：FLARUA研究Protocol里面预设10个亚组分析，其中就包括种族（亚裔 vs 非亚裔），最终报告了9个亚组分析的结果，没有报道的是Pre-treatment T790M status (positive / negative)。之所以要强调亚组分析的数目，是因为出现假阳性亚族效应的概率跟亚组分析的数目直接相关。如果进行10次亚组分析，出现一个亚组效应的概率就是1-0.95^¹⁰≈40%。有些研究为了避免亚组分析假阳性带来的困扰，会设定一个更高的标准，需要交互检验的P值＜0.05/亚组分析数目，才认为有统计学差异。

亚组效应的方向是否与预设一致：虽然种族是一个预设亚组，但是并没有预设亚组分析的方向（亚裔获益更多还是非亚裔获益更多）。

是否进行交互检验，且P<0.05：FLAURA研究针对亚组分析进行了交互检验，种族（亚裔 vs 非亚裔）亚组交互检验的结果在NEJM全文的附件中专门报道了，P=0.0087, 如果以0.05为标准，这个差异达到了统计学的显著性，说明亚裔和非亚裔的OS获益存在明显差异。

不同研究之间的一致性：也就是亚组结果的可重复性，这个是飞哥认为的认定亚组分析结果是否可信的最关键标准之一。奥希替尼目前只有两个随机对照三期临床研究发表（只有随机对照研究才能看出来不同亚组之间疗效是否有差异，单臂研究不能），除了FLAURA研究另一个就是AURA-3研究¹⁵，那我们来看看AURA研究亚组分析的结果，下图分别是PFS和OS的亚组分析结果

可以看到，无论是PFS还是最终OS分析的亚组分析结果，亚裔人群相比于非亚裔，似乎获益更加明显（PFS HR 0.32 vs 0.48; OS HR 0.84 vs 0.94）。AURA-3和FLAURA研究中种族亚组分析的结果是不一致的。当然有可能是因为两个研究存在一定差异，一个是二线是一个是一线，而且一个要求有T790M突变，一个不要求有T790M突变。但是FLAURA研究和AURA-3研究的关于亚裔vs非亚裔的亚组分析结果的不一致，很明显降低了FLAURA研究这一亚组分析结果的可信度。目前奥希替尼还有FLAURA2（NCT04035486奥希替尼+化疗 vs 奥希替尼用于晚期NSCLC一线治疗），LAURA（NCT03521154, Stage III NSCLC放化疗后奥希替尼维持治疗，类似PACIFIC研究），ADAURA（NCT02511106，IB-IIIA NSCLC奥希替尼术后辅助治疗）等三个大型国际多中心三期临床研究正在进行中，这些研究的亚裔 vs非亚裔的亚组分析也可帮助我们判断FLAURA研究亚组分析结果的可信度。

不同研究终点之间的一致性：FLAURA PFS亚组分析的结果如下图所示，非亚裔人群的PFS 的HR数值上好于亚裔人群，且交互检验结果P=0.03（原文未报道，飞哥手动计算）,说明对于PFS，两组的差异也有统计学上的显著性。PFS亚组分析结果差异程度没有OS亚组分析结果那么显著，似乎表明亚裔人群的PFS获益更容易被后线治疗的差异所抵消。

潜在的合理的生物学上的解释：飞哥不是生物学家也不是医学家，很难下结论，至少目前看来没有特别明显和直接的解释，为何亚裔人群在奥希替尼一线治疗中OS获益不明显。

还有一点需要指出的是PFS是FLAURA的主要研究终点，OS是次要终点，对于OS，FLAURA的检验效能也就是Power只有72%，到某个具体亚组就更低了。所以研究者才在NEJM文章说到“As a secondary end point, the trial and the analysis of the Asiansubgroup of patients were not powered for overall survival analysis.”

总结一下，目前FLAURA研究的亚裔 vs 非亚裔的亚组分析结果符合5个标准 (见下表)，其可信度读者应该已经有了自己的判断。从飞哥的观点来看，不能排除该亚组效应是偶然因素导致的，毕竟亚组分析的可信度一直不高，最关键的是这一亚组效应在类似研究中没有被重复，甚至方向相反且缺乏合理的生物学解释。但是由于该亚组是基于分层因素进行的预设亚组分析，交互检验结果P＜0.05，且PFS结果与OS亚组分析结果一致，样本量相对较大，还是需要引起一定重视。

表格2.png 虽然目前FLAURA研究的OS事件数达到了预设的要求，但是其成熟度也只有58%,随着事件数的进一步增加，亚裔人群的结果是否会改变也值得观察，毕竟从亚裔人群的OS曲线（见下图）看出来，其是先分开，后交叉的状态，在交叉部分，存在着大量的删失（随访时间不够），随着随访时间延长，不排除OS曲线尾部发生大的变化，导致HR的点估计偏离目前的1.00。

需要指出的是，目前FLAURA研究中国人群纳入的非常少，只有十几例，因此亚裔人群的亚组分析结果不能代表中国人群的结果。根据FLAURA的Protocol中国扩展研究预计入组120人，期待着该研究的OS结果能为中国EGFR突变的NSCLC患者一线接受奥希替尼治疗带来更直接的证据。当然由于该研究只有120人，对于OS来说，是没有足够的Power来检测到两组的差异的，因此除非疗效特别突出，P是会大于0.05的，大家可能更关注的是HR的点估计会落在哪个区间，如果是在0.8附近或者更好，就说明中国人群的数据跟整体研究是一致的；如果更接近于1，说明中国人群的结果是跟亚裔人群的结果更加一致，无疑会强化FLAURA研究亚裔 vs 非亚裔疗效存在差异的结论。需要指出的是，除了关注中国队列的HR以外，还需要关注报道时数据的成熟程度，数据成熟程度与总体研究（58%）基本一致，则结果可比性较高，在后线治疗明显会稀释奥希替尼疗效的情况下，数据成熟度过低或过高，都会导致中国队列研究结果与目前总体结果可能不具有可比性。

感谢丁云鹏博士对本文的校订和修改！对FLAURA研究的解读仅代表个人观点，不代表任何单位和团体，也不构成任何治疗建议。本文的撰写未接受任何资助。

参考文献

1. Ramalingam SS, Vansteenkiste J, Planchard D, et al: Overall Survival with Osimertinib in Untreated, EGFR-Mutated Advanced NSCLC. N Engl J Med, 2019

2. Zhang S, Liang F, Li W, et al: Subgroup Analyses in Reporting of Phase III Clinical Trials in Solid Tumors. J Clin Oncol 33:1697-702, 2015

3. Fuchs CS, Tomasek J, Yong CJ, et al: Ramucirumab monotherapy for previously treated advanced gastric or gastro-oesophageal junction adenocarcinoma (REGARD): an international, randomised, multicentre, placebo-controlled, phase 3 trial. Lancet 383:31-39, 2014

4. Wilke H, Muro K, Van Cutsem E, et al: Ramucirumab plus paclitaxel versus placebo plus paclitaxel in patients with previously treated advanced gastric or gastro-oesophageal junction adenocarcinoma (RAINBOW): a double-blind, randomised phase 3 trial. Lancet Oncol 15:1224-35, 2014

5. Casak SJ, Fashoyin-Aje I, Lemery SJ, et al: FDA Approval Summary: Ramucirumab for Gastric Cancer. Clin Cancer Res 21:3372-6, 2015

6. Reck M, Rodriguez-Abreu D, Robinson AG, et al: Updated Analysis of KEYNOTE-024: Pembrolizumab Versus Platinum-Based Chemotherapy for Advanced Non-Small-Cell Lung Cancer With PD-L1 Tumor Proportion Score of 50% or Greater. J Clin Oncol 37:537-546, 2019

7. Gandhi L, Rodriguez-Abreu D, Gadgeel S, et al: Pembrolizumab plus Chemotherapy in Metastatic Non-Small-Cell Lung Cancer. N Engl J Med 378:2078-2092, 2018

8. Paz-Ares L, Luft A, Vicente D, et al: Pembrolizumab plus Chemotherapy for Squamous Non-Small-Cell Lung Cancer. N Engl J Med 379:2040-2051, 2018

9. Mok TSK, Wu YL, Kudaba I, et al: Pembrolizumab versus chemotherapy for previously untreated, PD-L1-expressing, locally advanced or metastatic non-small-cell lung cancer (KEYNOTE-042): a randomised, open-label, controlled, phase 3 trial. Lancet 393:1819-1830, 2019

10. Liang F, Wu Z, Mo M, et al: Comparison of treatment effect from randomised controlled phase II trials and subsequent phase III trials using identical regimens in the same treatment setting. Eur J Cancer 121:19-28, 2019

11. Wallach JD, Sullivan PG, Trepanowski JF, et al: Evaluation of Evidence of Statistical Support and Corroboration of Subgroup Claims in Randomized Clinical Trials. JAMA Intern Med 177:554-560, 2017

12. Zhu AX, Kang YK, Yen CJ, et al: Ramucirumab after sorafenib in patients with advanced hepatocellular carcinoma and increased alpha-fetoprotein concentrations (REACH-2): a randomised, double-blind, placebo-controlled, phase 3 trial. Lancet Oncol 20:282-296, 2019

13. Zhu AX, Park JO, Ryoo BY, et al: Ramucirumab versus placebo as second-line treatment in patients with advanced hepatocellular carcinoma following first-line therapy with sorafenib (REACH): a randomised, double-blind, multicentre, phase 3 trial. Lancet Oncol 16:859-70, 2015

14. Sun X, Briel M, Busse JW, et al: Credibility of claims of subgroup effects in randomised controlled trials: systematic review. Bmj 344:e1553, 2012

15. Mok TS, Wu YL, Ahn MJ, et al: Osimertinib or Platinum-Pemetrexed in EGFR T790M-Positive Lung Cancer. N Engl J Med 376:629-640, 2017

排版编辑：DD