大多数临床试验的主要目的是评估试验药物的疗效和安全性,这也是临床试验统计分析的一部分——解释研究数据并为药物开发过程中的关键决策点提供信息支持。
临床试验统计分析的作用
在大多数Ⅱ期和Ⅲ期临床试验中,统计分析有两个主要作用:
验证试验药物的有效性
验证试验药物的安全性
临床试验统计分析本身就很复杂,但当你开始考虑种群异质性的影响时,它们将变得更加复杂。
偏差(Bias)、方差(Variance)、噪声(Noise)
人类的本质是异质性的。每个人都是不同的,不同的年龄、性别、病史、心理状态。
参与临床试验的患者也是如此。那么,这些特征的差异性就会使临床试验数据产生差异或噪声(Noise)。噪声也可能与其他因素相关,例如,治疗组之间具有特定特征的患者的不均衡分布。
临床试验数据中的噪声使得难以检测治疗组之间的真实差异(例如,药物治疗和安慰剂治疗之间的差异);然而,在异质性患者群体中评估实验性治疗以代表一般人群是必要的。因此,统计学上需要一些方法来使这些差异和偏倚最小化,同时仍然能够证明对一般人群的疗效和安全性。
为了更深入地理解这一问题并找出解决方法,让我们来看看临床试验统计分析的过程是怎么样的。
临床试验统计分析过程
1.提出假设
与所有科学研究一样,临床试验从提出假设开始。
关于药物临床试验,通常有三种比较类型:优效性、等效性、非劣效性。
统计分析讨论常见于优效性试验,其中的统计数据必须证明试验药物优于安慰剂(或对照组)。
2. 计算研究的把握度和所需样本量
统计分析从确定样本量开始,样本量是基于要达到的研究把握度。研究把握度与假设存在差异的研究组之间检测到差异的概率或避免Ⅱ类(假阴性)错误的可能性相关。因此,研究把握度至少需要达到80~90%才合适。
根据研究设计,统计学家需要确定所需样本量是否现实。
如FDA指南《E9:临床试验统计原则》所述,在确定样本量时应说明以下内容:
主要疗效终点(变量)
检验统计量
零假设(治疗无差异)
选定剂量下的替代假设
Ⅰ类错误的概率(通常≤5%)
Ⅱ类错误的概率(通常为10~20%)
处理退出治疗和方案违背的方法
3.制定统计分析计划(SAP)
一旦制定了研究方案设计方案,就要讨论和定义统计分析策略。SAP的关键要素如下:
临床试验总结,包括目的、终点、设计和样本量
数据集描述,包括研究变量和数据传输
数据分析注意事项,包括协变量调整
统计问题,包括离群值检测和脱落或缺失数据的处理
研究人群特征,包括受试者分布和治疗依从性测量
统计分析方法描述
研究设计、研究把握度和统计分析计划均在研究开始前设定。这是为了消除在临床试验开展过程中调整这些参数时可能发生的潜在偏倚。
4.收集数据并开展研究
接下来,研究从试验前患者数据开始。同样,重要的是在试验开始前获取重要的患者信息,以防止产生任何偏倚(由治疗干扰引起)。
例如,如果您计划在骨关节炎(OA)研究中使用体重指数(BMI)的协变量,您需要在SAP中明确指出,并在试验开始前就收集患者的BMI。
5.进行统计分析并报告结果
一旦有了结果,就该进行临床试验统计分析了。
临床试验中的统计分析通常基于估计的置信区间、假设和基于观察数据得出的结论。在这种类型的优效性试验分析中,通常有四种统计方法:
ANOVA(单因素方差分析):用于确定一个因素如何影响响应变量(response variable)。
ANCOVA(单因素协方差分析):包括一个或多个协变量,在考虑一些相关的、不变的特征后,可以帮助统计学家更好地理解一个因素如何影响响应变量。
MANOVA(多元方差分析):与ANOVA相同,但它使用两个或多个响应变量。
MANCOVA(多元方差分析):与MANOVA相同,只是它还包括一个或多个协变量。
临床试验通常会使用ANCOVA分析数据,这有助于以具体的方式减少方差。ANCOVA使与患者先天特征(如年龄或BMI)相关的数据正常化,并对真正的治疗效果产生更清晰、更精确的理解。
正如FDA所说,“申办方可以使用ANCOVA调整治疗组之间相关基线变量的差异,以提高显著性检验的把握度和治疗效应估计值的精确度。”
有关临床试验统计分析和协变量的更多信息,请参考以下行业指南:
FDA E9临床试验统计原则
EMA ICH E9 临床试验统计原则
FDA 调整药物和生物制品随机临床试验中的协变量
EMA 临床试验基线协变量调整
如何使统计分析中的变幅最小化
在试验统计分析前必须做出许多决策和计算。在整个过程中,就会存在偏倚的可能。即使经过彻底的计算和准备,临床试验数据仍然充满噪音,使得最终的统计分析更加困难和令人沮丧。
这是因为在统计分析中使用协变量使方差最小化需要可量化的数据。虽然一些先天特征,如年龄和疼痛水平可以很容易地量化,但其他对数据影响同样大(或没那么大)的特征却不能。相反,它们直到现在还无法被量化。
最明显的例子之一是安慰剂效应,它在患者之间存在显著差异,是临床试验数据中的主要噪声源。在此之前,这一特征在数学上是无法获得的,这意味着统计学家无法在统计分析中对其进行标准化。
得益于预测模型,现在可以在研究开始时计算患者的安慰剂效应评分(就像您对疼痛水平和年龄的评估一样)。通过将对患者心理的理解与预测机器学习算法相结合,可以计算出每个患者的相对安慰剂效应评分。这可以纳入统计分析计划中,并在试验前的数据收集阶段进行。
结论
多年来,统计学家已经能够在数学上解释明显的方差和偏倚来源。但是,细微的、先天的患者特征,如安慰剂效应,仍然是不受控制的主要的噪声源,导致更高的Ⅱ期和Ⅲ期试验失败。如今,这可以在研究之前被准确预测,并且利用统计分析可以解决这一关键的噪声源,以提高检测治疗疗效的能力。
Clinical Trial Statistical Analysis: How to Minimize Noise - Cognivia
排版编辑:Mathilda
