您好,欢迎您

如何解读一项单臂临床试验

08月27日
来源:上海市胸科医院呼吸内科张波博士
前言: 药物研发中, RCT 是评估药物疗效的金标准,但是, RCT 研究往往涉及更大的样本含量、更长的研究周期,对于罕见疾病、临床迫切需要新治疗手段的疾病来说, RCT 并非最佳选择。在这种情况下,基于单臂临床研究获批药物上市是合理的选择。 CDE 也曾经发表过专门的技术文件,以指导单臂临床试验的设计及执行。在药物研发中,单臂临床试验之所以在特定情况下才被允许,且相当一部分基于单臂试验获批的药物均为附条件批准,很重要的原因是单臂临床研究本身存在一定的缺陷。本文旨在结合具体的单臂临床试验,从不同角度探讨解读单臂临床试验的注意事项,以求更加全面、准确、客观的评估一项研究及一款药物的数据。

一、主要研究终点的选择

如果以药物上市为目的注册性临床研究, CDE 在《单臂临床试验用于支持抗肿瘤药上市申请的适用性技术指导原则》中讲的非常明确,需要以 ORR ,而且需要以独立评审委员会评估的 ORR 作为主要研究终点。
CDE 指导文件关于研究终点选择的要求

要求独立评审委员会进行数据评估容易理解,主要是为了避免研究者评估带来偏倚,毕竟单臂研究没有设盲, 为什么要求以 ORR 而不是 PFS 作为主要研究终点呢?个人认为, 这主要是为了规避疾病自然病程的影响。我们知道,临床实践中,少部分肺癌患者由于生物学行为偏于惰性,即使不给予治疗,病灶也可以在一定时间内保持稳定。因此,在以安慰剂为对照的临床试验中,安慰剂组 3 个月的 PFS 率往往并不是 0% ,甚至 6 个月的 PFS 率也不是 0% ,虽然这一比例并不高。例如,在舒尼替尼维持治疗广泛期小细胞肺癌的 II 期随机对照临床研究中,从生存曲线可以大概估算出,安慰剂组 6 个月的 PFS 率约为 10%

安慰剂维持治疗小细胞肺癌 6 个月 PFS

因此,如果以 PFS 作为主要研究终点,由于 PFS 包括了评估为 SD 的患者,而少部分患者的 SD 是由于疾病自然病程的影响而非给药的效应,这就意味着有可能略微夸大药物疗效。但是,对于肿瘤而言,不给予治疗可能在一定时间内保持疾病稳定,但基本不可能出现病灶缩小。尤其需要注意的是,出现客观缓解要求靶病灶缩小超过 30% ,在没有治疗的情况下几乎不可能出现。既往发表于 eClinicalMedicine 的一项荟萃分析也发现,安慰剂组在肺癌中的客观缓解率为 0%

安慰剂与客观缓解的相关研究

因此,如果出现客观缓解,就意味着疗效肯定是由于药物导致而不可能是由于疾病自然病程的结果。不以 DCR 作为主要研究终点同样是这个道理。因此,在单臂研究中,通常以 ORR 作为主要研究终点。

如果是研究者发起的研究,那么研究的主要终点设定可以围绕研究假设和研究目的进行。例如,如果研究者想要观察从该药治疗中长期获益的患者比例,可以设定×个月的 PFS 率或者 OS 率;此外,临床实践中,部分患者终止治疗可能是由于安全性原因而非疾病进展,因此,如果研究者想观察在真实世界中患者治疗终止情况,则可以选择至治疗失败时间 (TTF 来进行评估 )

二、注重缓解质量

缓解质量包括了两层意思:缓解深度和缓解持续时间。这同样也是 CDE 文件中的提醒。

CDE 文件

缓解深度即指代肿瘤缩小程度,根据 RECIST 1.1 评估标准,靶病灶直径和缩小超过 30% 以上,即可评估为客观缓解。但实际上,病灶缩小 32% 和缩小 92% ,可能意味着患者的结局是并不一样的,这在免疫治疗中体现的尤其明显,缓解深度与患者的疗效存在明显的相关性。对于缓解持续时间,这一点同样非常重要。如果患者虽然短期内出现客观缓解,但缓解并不持续,短期内出现疾病进展,意味着药物的疗效并不持久,因此,除了 ORR 这一指标外,还需要关注中位 DOR 这一数值,即从患者出现客观响应开始,至患者出现疾病进展或死亡。这一点在小细胞肺癌中体现的尤其明显。在广泛期小细胞肺癌患者的一线治疗中,患者接受含铂双药治疗的客观缓解率可以达到 70% ,远超非小细胞肺癌患者接受含铂双药治疗的客观缓解率,几乎可以与靶向治疗相媲美,但多数患者经过 4~6 个月的疾病缓解,往往很快出现疾病进展,意味着缓解质量其实并不高。

三、关注 ORR PFS OS 的关系

客观缓解率高,并不意味着患者的生存时间长,即 ORR 这一短期疗效指标和 PFS OS 等长期疗效指标并不一定存在明显的相关性。以 RESILIENT 研究为例,该研究探索了一线接受含铂双药治疗后疾病进展的广泛期小细胞肺癌患者,给予伊立替康脂质体或拓扑替康的疗效,主要研究终点为 OS 。虽然 ORR 接近翻倍,从拓扑替康 21.6% ORR 提高至 44.1% ,但是两组的 PFS OS 均没有提高。两组中位 OS 分别为 7.9 个月和 8.3 个月, HR=1.11 P=0.31 ;两组中位 PFS 分别为 4.0 个月和 3.3 个月, HR=0.96 P=0.71 。近期, Lancet Oncology 杂志发表了 FDA 基于递交的药物研发数据分析了 ORR PFS OS 等指标的相关性,结果发现, ORR 的获益与 PFS OS 的相关性并不强,提示仍然需要关注患者长期的获益情况。

ORR PFS OS 仅存在中度相关性

ORR 的获益不能转化为 PFS OS 的获益,主要与两方面的原因有关: 1 、疾病本身的生物学特点,如小细胞肺癌,患者虽然对治疗表现为初始响应,但由于肿瘤恶性程度高,会迅速出现继发性耐药,导致响应并不持久; 2 、可能和给药剂量有关。在药物研发中,为了追求较高的短期客观缓解,而给予较高的给药剂量,而较高的剂量会导致患者因频繁的治疗中断、治疗终止、给药延迟,甚至永久性终止给药,影响疗效,从而使患者最终的 OS 反倒更短。以 FDA PI3K 抑制剂在血液系统肿瘤的态度为例,早先, FDA 基于单臂临床研究中较高的 ORR 数据陆续批准了多款 PI3K 抑制剂在淋巴瘤中的应用。但是,在后续的确认性随机对照临床研究中,获批的药物不仅没有展示更好的 OS ,反而 OS 有更差的趋势,进一步分析发现,这些药物的安全性存在隐患,多数药物的 3 度以上不良反应发生率都超过 70% ,甚至有几款药物已经超过 85% SAE 也超过 50% ,如此“惨不忍睹”的安全性数据,导致 1/3-1/4 的患者因不良反应而导致永久终止治疗,因此, OS 受到负面影响也就是情理之中的事情了。最终, FDA 召开专家顾问会,讨论基于单臂临床研究批准 PI3K 抑制剂的可行性,最终, 2022 4 21 日,专家组以 16 票同意, 0 票反对, 1 票弃权的结果,认为未来 PI3K 抑制剂在血液瘤中的适应症批准,仍然需要回归传统金标准—— RCT ,由此导致大量的附条件上市的 PI3K 抑制剂纷纷撤市。

FDA 关于 PI3K 抑制剂的讨论

四、谨慎解读 PFS 数据

首先解释一下中位 PFS 的概念。在生存曲线图中,左边的纵轴指的是生存率,横轴指的是生存时间,所谓中位 PFS ,就是从 50% 累计生存率这一点,做一条与 X 轴平行的线,这条线与生存曲线的交点,对应到时间轴,即为中位生存时间。因此,很显然,“中位”实际上是用了生存曲线中的一个“特殊的点”替代了一整条生存曲线。

中位概念的展示

虽然“中位 PFS ”等概念是药物研发中非常常用的指标,但是,用曲线上“一个特殊的点”来替代一整条生存曲线,本身就存在缺陷和不合理的地方。了解这一概念后,我们详细聊一聊为什么单臂临床研究的 PFS 需要谨慎解读,为什么 PFS 的跨研究比较需要非常谨慎。

首先,在以 PFS 为主要研究终点的随机对照研究中, PFS 的分析时间节点是预设的。这些“事件驱动型”的主要终点,往往需要在终点事件达到预设的数量后,才会触发相应统计分析计划。而在单臂临床研究中,对 PFS OS 的分析时间节点并无明确要求,只要拿到确认的 ORR 数据后, PFS 可以在任意节点进行,随着事件数逐渐增加,随访时间逐渐延长,生存曲线的走势和形态也会逐渐变化,中位数值的估算自然也会有相应的变化,而如果样本含量比较小,会导致生存曲线呈现阶梯状, PFS 的估算并不稳健,在 50% 累计生存率附近,少数终点事件数的变化就可能导致中位数值的估计出现剧烈波动。以赛瑞替尼治疗 ROS1 融合阳性患者的一项单臂 II 期临床研究为例,该研究初始时候,允许克唑替尼耐药的患者入组,但入组 2 例患者后,发现均对赛瑞替尼耐药,因此,研究修改方案后,仅入组初治患者。因此,最终数据分析时,全组人群和初治人群只有 2 例样本含量的差异,但两组中位 PFS 分别为 9.3 个月和 19.3 个月,相差 1 倍不止。就是因为对于小样本单臂研究而言,中位 PFS 的估算可能会有不稳定的因素。

赛瑞替尼治疗 ROS1 融合阳性 NSCLC 的单臂 II 期临床研究

另一方面,不同研究入组患者的基线特点,如脑转移状态、肿瘤负荷不完全相同,疗效评估周期不同,删失规则不同,这些都会对疗效评估造成影响。

因此,单臂研究 PFS 的中位数值估算的潜在不稳定性、不同研究临床特点的差异、研究规则的差异,即使间接比较有较大的 PFS 的差异,这种差异也未必能在随机对照临床试验中体现出来。

以阿来替尼和布格替尼为例,两款药物后线治疗克唑替尼耐药的 ALK 阳性晚期 NSCLC 患者的适应症均是通过单臂临床研究获得批准。其中,阿来替尼共有两项单臂研究,两项研究的设计、样本含量、入组人群及结果基本相似,分别入组 138 例和 87 例患者, ORR 分别为 50% 48% ,中位 PFS 分别为 8.9 个月和 8.1 个月;

阿来替尼的后线注册性研究

而布格替尼为双队列研究,由于两个队列并不进行假设检验,只是单纯比较不同给药剂量 (A 组: 90mg ,口服,每日一次; B 组: 90mg ,口服,每日一次, 7 天后改为 180mg ,口服,每日一次 ) 与疗效的相关性,因此,可以将每个队列看做是一个独立的单臂研究。队列 A 和队列 B 分别入组 112 110 例患者,两个队列的 ORR 分别为 45% 54% ,中位 PFS 分别为 9.2 个月和 2.9 个月,此时,从间接的数据看,布格替尼队列 B 的疗效已经似乎展示了比阿来替尼更好的疗效。

布格替尼的注册性临床研究及更新

而更新后的数据,队列 B 的中位 PFS 更是达到了 16.7 个月,与阿来替尼的数据相比,几乎翻倍,似乎展示了巨大的优势。在这一间接数据的加持下,武田公司开展了布格替尼与阿来替尼在后线头对头的比较,由此, III 期的 ALTA-3 研究应运而生,但是结果却让人大跌眼镜。研究不仅没有得到阳性结果,同时也没有看到获益的趋势,更重要的是,在随机对照临床研究中,两药的中位 PFS 数据均远远超过注册性临床研究。两组中位 PFS 分别为 19.3 个月和 19.2 个月, HR=0.97 P=0.8672

ALTA-3 研究

因此,在单臂临床研究中,跨研究的疗效比较得到的结论有时并不可靠,中位 PFS 的数据值也会“骗人”。

五、关注不良反应的归因

药物研发中,关于不良反应通常会有两个描述: TEAE (Treatment emergent adverse event) TRAE (Treatment-related adverse event) ,前者指全因不良反应,即无论 AE 与疾病有关,亦或是与治疗有关,都可以纳入统计分析中;后者指治疗相关不良反应,只有与治疗药物有关的 AE 才可以纳入统计分析。单臂临床研究由于没有设置对照组,从而使不良反应归因存在困难,因为疾病本身同样可以导致某些不良事件,如咳嗽、痰血、胸闷、气急、疼痛的出现,这些不良事件应该归因于疾病本身,还是归因于药物治疗,还是两者都存在一定相关性,很难进行判断,这就使得对不良事件的判断会出现偏差。

当一项单臂临床试验宣称得到“阳性”结果并成为“史上最佳”时,我们需要审慎的判断研究所提供的循证医学证据是否足以支持这样的结论,研究是否能够经得住 III 期随机对照的验证,有没有更多的外部证据对结论进一步支持,安全性归因是否存在不合理性,结合历史对照数据、完整生存曲线,从而尽量得到更加客观和全面的解读。