首页 > 文章详情

统计知识系列讲座（一）——临床研究随机化概述

2024年02月04日

作者：褚嘉栋

来源：医统江湖

高质量的临床研究离不开严谨科学的研究设计作为支撑，核心原则是随机、对照、重复。首先，随机化（randomization）是临床试验设计的重要环节，是保证组间均衡、减少偏倚的重要手段。随机化原则包括随机抽样和随机分组：1）选择一定数量有代表性的患者作为研究对象的过程即为随机抽样；2）随机抽样后所得到样本集进一步的分组过程即为随机分组。下文提及的随机化即为随机分组。

一、什么是随机化？

随机化的含义是使得参与研究的每一个个体均有相等机会被分配到试验组或对照组中。也就是两组分配概率相同，不受研究者和受试者主观意愿等影响，且分配到哪一组中事先不可预测。

随机化分组的目的是为了试验组和对照组之间的非试验因素（例如年龄、性别、疾病严重程度等）能够均衡，尽可能提高两组之间的可比性，从而凸显出组间的差异主要由干预因素的不同所造成，而不是由于组间受试者特征的分布不均匀造成的。

随机化优点：1）降低偏倚风险，减少选择和混杂偏倚；2）为后续盲法的开展提供基础。

二、常见的随机化误区

随机化重点体现在其随机性，也就是不可预测性。若按照患者入院次序先后、出生年月、单双号交替入组等方式，容易被预测，不算严格意义的随机化方法，被称为假随机。

三、基本随机化方法及实施

根据随机化分组概率在整个临床试验中是否保持一致，随机化方法可以分为两大类：固定随机化方法和动态随机化方法。前者包括简单随机、分层随机、区组随机、分层区组随机；后者包括最小化法、偏性掷币法、瓮法。

1、简单随机

第一种方法也是最简单的随机化方法，即简单随机。简单随机是不考虑其他因素情况下的随机化过程，属于完全/非限制性随机法。

优缺点：①试验操作简单易于理解；②其他因素可能存在不均衡情况；③组间例数可能不平衡。

基本要求：预计总样本量、组间分配比例

实施方法：抛硬币法、查随机数字表、计算机伪随机法等。

图1. 简单随机过程的示意图

2、区组随机

区组随机对随机过程进行一定的约束，因此也称为限制性随机。它是指将受试者根据某些特征划分为不同区组，然后在单个区组内部按相应的分配比例进行简单随机的过程。区组随机的关键点在于需要事先确定区组长度，即单个区组内包含的研究对象数量。区组长度常规设为比较组数的2~3倍，例如对于两组比较（对照组+试验组的研究设计，设置区组长度为4~6。

优缺点：①确保不同组间的例数相同；②确保不同组间特征基本均衡；③确保不同样本在进入各组在时间上的均衡性，即避免组间分配进度存在时间快慢差异；④存在预测分配的可能性，特别是单个区组内最后一例入组的受试者，从而可能存在一定选择偏倚。

基本要求：预计总样本量、组间分配比例、区组长度。

图2. 区组随机过程的示意图（固定区组长度）

然而，区组随机或分层区组随机方法由于采用固定大小的区组，单个区组内最后一例受试者入组往往是可以被预测的，这可能会带来潜在的选择偏倚风险。为进一步降低这种区组内的预测可能性，采用不固定区组长度的区组随机，即可变区组随机/分层可变区组随机。可变区组随机通常将区组大小设置为几个不同长度的值，之后进行随机抽取组合，从而降低选择偏倚风险的可能。

图3. 可变区组随机过程的示意图（不固定区组长度）

3、分层随机

分层随机是指根据研究对象进入临床试验时根据某些关键的临床特征因素进行分层，然后在各层内按照相应的分配比例进行简单随机的过程。其目的是控制可能影响主要疗效指标的非处理因素（分层因素）。分层因素的选择需要选择最可能影响试验结局的因素，包括并不限于研究中心、年龄、性别、与疾病本身相关的特征（病程、分期、组织学类型、生物标记物等）、与治疗相关的因素（联合用药的种类、周期）等。

优缺点：① 控制影响主要疗效指标的重要因素在组间分布均衡，降低偏倚风险；② 分层因素不能过多（一般≤4个），分层因素过多使得层内样本量会大幅减少，甚至出现个别亚组中没有个体；③组间例数不一定相等。

基本要求：预计总样本量、组间分配比例、分层因素及预估占比。

实施方法：统计软件、excel等实现。

图4. 分层随机过程的示意图

表1. 分层随机和区组随机的异同

4、分层区组随机

分层区组随机是一种将分层随机和区组随机整合在一起的随机化方法，即按重要因素分层基础上再划分不同区组进行随机的过程。常见于大型多中心随机对照临床试验。

优缺点：①既可保证重要特征因素在组间均衡，又可保证组间例数基本一致；②分层因素不能太多，可能导致亚组内例数过少；③操作上会相对复杂一些。④当未完成的区组数较多或分层因素多而样本量有限时，也会造成严重的组间预后因素不均衡。

基本要求：预计总样本量、组间分配比例、分层因素及预估占比、区组长度。

实施方法：借助R等统计软件实现。

图5. 分层区组随机过程的示意图

5、动态随机化（dynamic randomization） 动态随机化又被称为适应性随机，是指根据当前入组的受试者信息实时调整随后被分配到不同治疗组间概率的随机过程。在一项临床试验，除了干预因素外，其他重要的预后因素需要尽可能平衡。即使这些因素的组间差异不具有统计学意义，但其组间差异仍有可能导致疗效评价存在偏倚。上述简单随机、区组随机、分层随机对于协变量带来的影响无法完全平衡；分层区组随机虽然能较好地处理其他协变量组间均衡的问题但在样本量上需要更多。相比而言，动态随机化方法可以有效地均衡组间多个协变量（特别是在小样本条件下）。动态随机化法包括最小化法、偏币法、翁法，其中最小化法最为常用。

5.1 最小化法

最小随机化于1974年由Pocock和Simon引入，其基本思想是在临床试验的过程中实时调整下一例入组受试者分配到各组的概率, 从而实现缩小组间差异目标的动态随机过程。具体来说，其根据各组间已累积入组患者特征及下一位入组患者的特征，计算该受试者进入各组后协变量的差异程度并将受试者分配到差异最小的治疗组中，从而确保各治疗组间例数和重要协变量因素基本一致。最小化法也是临床试验中最常用的动态随机方法。偏性掷币法和翁法应用较少，主要为确保组间例数相近。

优缺点：①在小样本条件下，有效均衡治疗组间重要预后因素的分布；②相比分层随机，可以考虑更多的分层因素；③最小化法分组不会降低检验效能；④依赖于已入组受试者信息，无法事先制定整个随机化表；⑤由于依赖于已入组受试者信息进行调整，对于后续入组情况具有一定预测可能性，因而可能产生选择性偏倚；⑥随机过程比较复杂，需借助统计软件实现。

基本要求：预计总样本量、组间分配比例、需要均衡的影响因素、各因素的权重、目标分配概率P。

实施方法：R、SAS等统计软件实现

图6. 最小化随机过程的示意图

原理步骤：①确定需要平衡的影响因素、各自的权重和目标组分配概率；②第一个研究对象完全随机分组；③从第二个研究对象开始，计算该研究对象被分组特定组后，两组间的预后因素差异大小；④按照差异最小化的原则，将该研究对象按照分配概率进行随机分组。

其中，区分影响因素重要性可以设定相应的权重。D值计算包括极差法、方差法、最大限值法和符号法。

5.2 偏性掷币法和翁法（Urn法）

偏性掷币法又称为偏币法，其基本原理是预先设置一个组间例数相差允许范围，当两组当前入组例数相等或不超过设定的允许范围时，后续入组概率在组间保持一致；当组间例数相差超过允许范围时，提高分配到例数较少组的概率，从而纠正组间例数相差过大的问题。研究者需要在试验前设置相应调整概率P的大小，预设概率P越大则均衡两组速度越快。

翁法基本原理：①在装有两种颜色圆球的瓮中每次随机抽取1个圆球（各a个）；②根据球的颜色确定病人入组，同时放入b个另一颜色球，继续重复抽样的过程。具体来说，假设应用参数设置为a=3，b=1的Urn法进行试验设计，规定红和黑球各3个（a=3），其中抽取红球为A组，抽取黑球为B组，则两组初始随机分配概率均为0.5；当第一个受试者随机抽取的第一个球为红色（分到A组）时，将红球放回瓮中，同时增加一个黑球（b=1）；第二个受试者进行抽取时，由于瓮里有3个红球和4个黑球，因此两组抽取概率将调整为0.4286/0.5714；若第2次抽取仍为红球，则再加入1个黑球，进一步调整两组随机分配概率为0.375/0.625。通过这种调整随机抽样概率的方法，达到组间例数接近。偏性掷币法和翁法在实际临床使用中较少。

浙江省肿瘤医院

临床研究部

统计师

褚嘉栋