您好,欢迎您

统计知识系列讲座(四)——亚组分析

02月27日
作者:楼丽姝
来源:医统江湖

一、什么是亚组分析

亚组(Subgroup)是指临床试验中所有受试者的一个子集(Subset)。临床试验中的亚组分析(Subgroup analysis)是指对根据受试者某个基线特征(如:性别、年龄、是否抽烟、是否有驱动基因突变等)定义的亚组进行统计分析,评估特定终点的疗效和/或安全性。 

二、亚组分析的分类

根据研究目的,亚组分析分为探索性亚组分析、支持性亚组分析和确证性亚组分析。探索性亚组分析主要用于早期临床试验或在确证性临床试验的探索性分析中,亚组既可以在设计阶段事先定义、也可以在分析阶段事后定义(如根据数据驱动划分亚组)。在以考察试验药物在全人群中的疗效为目的的确证性临床试验中,当全人群的主要终点同时具有统计学意义和临床意义时,通常还需要进行支持性亚组分析,亚组一般应在临床试验的设计阶段事先定义,并在试验方案中详细描述。而对于确证性亚组分析,则必须在临床试验的设计阶段事先对亚组进行定义,并在试验方案中详细描述。

三、亚组分析的意义

亚组分析可以充分挖掘临床试验资料的信息,也是考察研究因素中混杂因素的统计分析方法之一。一般来说,临床研究疗效评价都是基于整个研究人群的。但是不同特征人群治疗效果可能不同,即治疗效果的异质性。根据不同特征将研究人群划分成不同的亚组,对亚组进行检验可提炼更为丰富的信息。有助于发现具有最佳效益-风险比的试验人群。

 四、亚组分析的结果解读

临床研究亚组分析的结果通常以森林图的形式展示。中间是点估计,两端是可信区间。临床医生通常会非常关注可信区间上限是否超过1,认为区间上限超过1的亚组是不获益的或获益有限的。这种常见的理解方式是有一定偏差的。

以KEYNOTE-024研究为例,女性患者、ECOG评分为0、当前吸烟患者和从不吸烟、脑转移、鳞状、肺癌患者OS HR 95%置信区间上限都大于1,亚组分析结果能表明这部分人群无法从帕博利珠单抗治疗中获益吗?并非能下确证性结论。

亚组HR可信区间超过1、P值大于0.05并不代表该亚组治疗无效。因为结果不仅取决于疗效,还取决于亚组的事件数。亚组分析通常是事后探索性分析,非确证的,没有预先计算样本量,把握度不足,解读其结果需极为谨慎。所以不能要求可信区间上限不超过1,更应关注其HR是否小于1,以及亚组间异质性,即进行交互检验。然而很多研究在进行亚组分析时分别检验各个亚组的差异是否有统计学意义,以此来推断治疗措施是否有效,这是最常见但易误导读者的评价方法。单从某一亚组疗效的P值是否有统计学意义推断治疗效果是不正确的,因为这样会导致假阳性率增高。

五、交互检验及亚组效应

异质性分析实际上是分析同一特征变量不同水平的亚组间结论的一致性,本质是进行交互检验,交互检验才是真正比较不同亚组之间的HR是否有差异的手段。将Factor*Treatment作为交互项纳入模型分析,根据交互作用的参数估计值和可信区间可以判断在不同亚组中干预措施的疗效是否有差异。若交互项Pinteraction<0.05,则说明该因素有亚组效应,也就是该亚组分层可以作为筛选患者的依据。           

亚组效应是指干预措施的效果(HR)在某因素水平上(即不同亚组间)的效果存在差异,也就是干预措施与某分组因素存在交互作用。亚组效应可分为两组,一种是程度上的差别(即效应大小的差异,同质性亚组效应);另一种是性质上的差别(即效应方向上的差异,异质性亚组效应) 。

同质性亚组效应,即试验药在整体人群中有效,但对亚组A人群比亚组B人群疗效更好。异质性亚组效应,即试验药对亚组A人群有效,而对亚组B人群无效。通常我们更关注异质性亚组效应,但实际上同质性亚组效应也可以帮助我们更精准地筛选患者指导用药。 

六、亚组效应可靠性评价 

亚组效应的金标准是对此亚组人群做新的RCT,其次是Meta分析。在缺少金标准的情况下,对亚组分析可信度的判断不仅仅依据P值。
亚组分析中需要考虑的因素包括但不限于以下几个方面:

1、生物学合理性及临床意义
生物学合理性指亚组的生物学特征与研究终点之间的因果关联在生物学上的可解释性。例如,不同患者之间潜在的病理生理学或遗传学的差异可能导致药物治疗效果的不同,亚组分析能够据此给出合理的解释。对于一个生物标志物,如果没有合理的理论解释,那么这种差异只能是统计学的差异,没有临床意义。

2、目标人群异质性
目标人群的异质性是是否需要和如何设计亚组分析的关键。异质性与预后/预测因素对试验措施疗效的影响程度有关。试验前可能无法识别潜在的预后/预测因素对疗效评价的影响,更应充分考虑已知因素对结果的影响,在研究方案中制定入排标准以明确目标人群。入排条件越严苛,入组患者异质性越小;反之则可能增大目标人群异质性,使得试验措施在全人群中的疗效更不易显现,此时进行亚组分析更为必要。

3、处理效应一致性
不同亚组间显示出相同或相似的治疗效果即为一致性,反映了亚组结果对全人群疗效适用于试验总体人群的支持程度。若所关心的亚组间疗效不一致,则需进一步评估原因和在特定亚组的疗效。

4、亚组分析的可信度
可信度是指亚组分析结果的可靠性或证据强度。它的评估包括但不限于:(1)亚组是否定义(事先定义的亚组分析有很多统计学考虑);(2)定义亚组的变量具有生物学上的合理性;(3)亚组划分依据是否充分;(4)亚组分析结果的可重现性;(5)先验知识的可靠性。
总体而言,是否事先定义、生物学合理性、处理效应一致性及结果可重复性是亚组分析结果可靠性评价体系的关键要素。

5、统计学考虑
(1)研究目的:首先明确亚组分析是确证性的还是探索性的。对于亚组分析是临床试验主要目标之一的确证性研究,需要事先定义亚组。而探索性亚组一般是事后的,无需预先定义。
(2)随机性:要维持亚组内受试者分配的随机性,最好的办法是在设计时将亚组作为一个分层因素,进行分层随机化,尤其是在确证性亚组分析时。亚组不宜设置太多,分层因素一般≤4个,数量过多时偶然因素的权重会加大,因此亚组分析数量越多可信度越低。
(3)样本量估计:一般样本量估计仅基于整个受试者人群,不能确保亚组分析有足够的检验效能。因此,如果计划要进行亚组分析,特别是确证性亚组分析,需要针对每个亚组进行样本量估计。整体样本量依据亚组人群的比例,按比例放大。
(4)多重性校正:多做几个亚组分析就会发现,总有几个亚组是有统计学意义的,但这种探索性分析所得结果假阳性可能性比较大。在确证性亚组分析中,要事先考虑多重性校正问题,以控制I类错误的膨胀。
(5)亚组分组因素的确定:基线特征如果是离散型分类变量,则用该变量的类别作为亚组即可;如果基线特征是连续型数值变量,则分组时存在分组界值的确定问题。需要注意,亚组的划分必须是根据受试者在基线时的测量结果或状态,而不是治疗后的测量结果或状态。如果根据治疗后的测量特征来定义亚组,则亚组之间就混杂了干预因素本身,也就无法解释干预的效果。
(6)亚组分析的指标与方法选择:
将亚组人群的基线特征与全部受试者人群、除亚组外的其他受试者人群的基线特征进行比较分析,从亚组人群基线的特殊性有可能找到导致结果不一致的原因。对于单个亚组指标的分析,往往采用与整个受试者人群对应的指标相同的分析方法。对于多个亚组间的对比分析,实际上是一种异质性分析。
(7)异质性分析与交互作用:
应该在亚组分析的时候进行交互检验,P<0.05才具有亚组效应。结果用森林图直观表达。

6、实例评价
以FLAURA研究为例,亚组分析显示非亚洲人群获益更加突出,这个结果可信度如何?种族(亚洲人群和非亚洲人群)是基线变量,作为预设亚组进行了随机分层,交互效应存在(Pinteraction<0.05)。但其具有生物学机制解释上有点牵强(虽然EGFR突变频率在亚裔人群和高加索人群中存在差异,目前并无确证性的数据证实,两者之间接受TKI类药物治疗的疗效存在本质不同),PFS结果中并未发现OS的获益趋势。且此亚组分析的发现并未在不同研究中重现,AURA3研究与FLAURA研究结果并不吻合。
整体上来讲,FLAURA研究的种族亚组的分析结果并没有稳定地重现出来,但考虑到亚裔亚组的样本含量比较大(有足够的把握度)且这是预设的亚组分析,交互检验时P<0.05,因此,这一结论还是要引起一定的重视。           

 GEMSTONE-302研究的亚组分析显示鳞癌人群获益更加突出,结果是否可靠?病理分型(鳞癌和非鳞癌)是基线变量,作为预设亚组进行了随机分层。虽然亚组分析数目大于5,但其具有生物学合理性(鳞癌巨噬细胞高浸润可以解释舒格利单抗在鳞癌人群获益更加突出),且交互效应存在(Pinteraction<0.05),PFS、OS获益趋势一致。总体看来,该亚组分析结果是可信的。                         

言而总之,对于亚组分析,不要求每个亚组的HR可信区间上限小于1,而是依据交互检验进行判断,在Pinteraction<0.05时,提示可能存在亚组效应,除从统计学角度考虑此效应的可信度外,还应该从生物学合理性等方面判断其临床可信度。        

 

浙江省肿瘤医院

临床研究部

统计师


     
       楼丽姝