首页 > 文章详情

二期临床——随机还是不随机？

2016年01月11日

文章作者：梁斐

在肿瘤领域传统的二期试验设计的类型是单臂二期试验（single arm phase II, SA-II）. 研究者通常基于SA-II的试验结果来决定是否要进行三期临床试验，但是长期以来肿瘤三期临床试验的成功率低于其他医学领域。因此已经有好多人建议采用随机对照二期临床试验（randomized phase II,RP-II）来提高药物研发的效率。虽然RP-II的类型也有很多，但是最主要的（大约90%）是两臂RP-II。RP-II的使用已经在增加，但是并没有确切的数据证明，RP-II相比于SA-II更多的样本量和投入使得药物研发的效率提高了。JCO编辑部请来了梅奥医学中心和多伦多MacMaster的专家们通过辩论的方式来探讨两者的优缺点。

正方:支持RP-II

启动三期临床试验的决定是不轻易做出的。虽然阴性的三期临床试验对科学研究也是有意义的，但是考虑到三期临床的巨大成本，阴性的三期临床试验应该是例外，而不是像现在这样成为主流。三期临床试验能否成功的最关键的单一预测因素就是可获得的初步数据的质量，通常来自于之前的二期临床试验。基于跟历史对照数据的比较来得出结论的RA-II临床试验，由于以下原因，通常不能提供足够稳健的初步数据。首先是由于此类研究都是在单个或者少数几个中心进行的，容易产生选择偏倚，导致病人组成显著不同于多中心三期临床的病人。其次，SA-II试验是基于与历史对照的比较来下结论，而忽略的历史对照的变异性，从而增加了假阳性的概率（α值）。历史对照数据的轻微的变化，即使仅有5%，在SA-II试验中，也能使得假阳性的概率达到原来的三倍。而且单纯扩大样本量并不能解决这一问题，反而适得其反，让试验者更加确信试验组与历史对照数据之间的区别（其实是偏倚）是存在的。第三，也是最关键的，SA-I试验忽略了1）病人的异质性2）由于最佳支持治疗，诊断和分期技术的进步以及其他标准治疗随着时间发生的变化。一些因素例如患者评分，之前治疗的数目和年龄等已经被多次证明是病人结局的有力预测因素。而标准的SA-II试验假定试验病人在这些因素上与以前的研究的入组病人是一致的。而且随着对于肿瘤生物学的进步，肿瘤正在根据生物标记物特征被进一步细分（乳腺癌中的HER-2，以及肠癌中的KRAS等），历史对照数据的有效性进一步降低。而且由于影像技术，肿瘤标记物甚至RECIST标准的改进，评估疗效的技术也在不断的进步中。这些问题在联合治疗的SA-II试验，以及时间依赖性终点例如PFS为主要研究终点的SA-II试验中更为明显。

胰腺癌临床试验的发展过程生动诠释了为何根据SA-II临床试验结果开展三期临床的策略是失败的。在过去的10到15年中，一系列的SA-II临床试验研究了吉西他滨加某种新药的疗效。这些试验无一例外都报道了相比于历史对照数据“有前景的效果”。然而随后的三期临床却都（也许厄洛替尼与吉他西滨的联合是个例外）失败了。因此基于SA-II结果而开展的三期临床严重了晚期前列腺癌的新的疗法的开发。

RP-II研究可以解决这些问题。在同一个研究方案下，纳入试验组和对照组，保证两组人员基线水平的平衡，对照组和试验组之间终点评价方法和支持治疗保持一致性，保证了两组之间比较的有效性。RP-II还有很多其他好处。即使SA-II主要研究终点的历史对照的数据的质量很好，但是RP-II不仅保证主要研究终点的比较是有效的，还可以对其他次要研究终点进行有效比较；其次，RP-II试验可以研究某种生物标记物的作用，没有对照组，是无法确定某个生物标记物到底是预后因素还是预测因素的（编者注：上篇文章我们讨论过这个问题）。

RP-II另一个更进一步的优势是，有可能产生足够可信的数据，使得药物更够根据二期临床的数据得到批准。已经有好几位作者提出建议说，一个设计良好的RP-II，在一个具有临床意义的主要研究终点上得到了非常显著的阳性结果（例如P<0.0005），足以排除进一步开展三期临床的必要性。“确定性”RP-II试验的概念是指，一个新的疗法的生物有效性非常强烈，以至于在三期随机对照试验中设置对照组，在伦理学上存在问题。例子包括伊马替尼治疗胃肠道间质细胞瘤和多聚ADP核糖聚合酶抑制剂治疗三阴性，BRCA-1阳性乳腺癌。“确定性”RP-II试验的概念可能特别适用于传统三期临床试验难以开展的罕见性肿瘤。强烈的生物有效性可以被定义为在一个多中心，精心设计和实施的，与三期临床有着类似的质量标准（包括设盲）的RP-II试验中得到的HR<0.6 并且P值非常显著（远远小于0.05）的结果。

我们认为，以上提到的RP-II的优点以及SA-II试验的缺点，使我们有理由相信，虽然RP-II会增加样本量，但是仍是更加可取的为三期临床提供基础数据的选择。特别是新药与标准治疗联合的试验或者不以ORR为终点的试验，RP-II当成为强制性的要求。

反方：支持SA-II

由于设计简单易于实施，SA-II试验非常适合于筛选适于进一步研究的药物。有研究报道，通常SA-II研究的样本量小于50，并且假阳性和假阴性的概率都控制的非常好（α≤0.05，β≤0.12）。而通过对2008年发表的SA-II和RP-II研究的综述，更加证明了以上观点。

相反，由于RP-II试验更加复杂，需要的样本量更多（通常是SA-II的四倍）可能不适合作为药物筛查试验。虽然可以通过增大α和β值的方式来减少RP-II的样本量，却也增加了假阳性和假阴性的概率，而这也会导致一系列的问题。如果通过增加α值来减少样本量，会导致更多的病人在三期临床中接受无效的治疗（假阳性率增加），而提高β值的来减少样本量，会导致更多的有效药物被提前放弃（假阴性率增加）。假设有100种活性制剂，将β从0.1增加到0.2会导致额外的10种活性制剂被放弃。由于活性制剂的数目有限，我们认为这是不可接受的。

值得注意的是，即使精心的设计实施，小的随机对照临床设计（例如RP-II）并不能保证预后或者预测因素在两组之间的平衡。这些不平衡会阻碍对结果的理解和解释，而且当样本较小时可能不会被统计检验发现。

更重要的是，没有数据表明采用RP-II设计会改善药物研发。通过对2008年发表的SA-II和RP-II研究的综述，我们发现不论是SA-II还是RP-II设计都使得50%左右的药物进入了下一步试验。有模拟试验表明，在病人数量有限的情况下，通过提高P1（目标值）和增加历史对照数据P0的不确定性，在大多数情况下SA-II的效果都优于RP-II。只有在当P0的不确定性很高或者样本量大于80时，RP-II才更加有效。还有值得注意的是，FDA曾经根据RP-II结果批准的两个药物中的一个，随后被撤回了。

总的来说，让RP-II取代SA-II成为肿瘤二期临床的常规设计，是没有根据的。三期临床不可接受的高失败率并不能归咎于SA-II存在根本性缺陷，而是由于这些试验设计没有很好的计划和试验结果没有很好地被解读。为了改进药物研发，我们需要集中精力提高SA-II的质量而不是指望更加复杂，无效和容易出错的试验设计。

对正方观点的反击

实际上RP-II的入组病人也是有选择性的，并不比SA-II试验更能代表随后三期试验中的病人。我们也很难相信RP-II可以完全平衡各组之间的预后/预测因素，这点即使在样本量更大的三期临床试验中也难以完全做到。

对方还提到，设置对照组可以有效减少对历史数据的依赖。但是显然在很多情况下，作为历史对照的临床数据是很丰富和稳定的，而且患者之间的疗效一致性很小，因而没有必要设置对照组。就拿对方提到的胰腺癌为例，研究显示吉他西滨的一线治疗的中位生存时间稳固在6个月（范围：5-7个月）。在这种情况下，设立吉他西滨的对照组，除了增加样本量之外，没有任何益处。继续晚期胰腺癌的例子，有人回顾了所有失败的三期临床研究之前的二期临床研究，发现只有一个二期临床研究（吉他西滨＋贝伐单抗）的结果，在一个正常人看来足够有前景来继续开展三期临床，其他的三期临床本来就不该开始。因此就像我们之前提到的，我们需要更好的开展和解读SA-II，而不是更加复杂的设计。

对反方观点的反击

对方根据对2008年的二期临床的一个综述就声称RP-II实施起来困难，而SA-II更容易。但是很显然这样一个综述是有偏倚的。有人对ClinicalTrials.gov 上的二期临床进行了统计，发现很多试验根本没有发表，特别是阴性结果。说到RP-II中试验组和对照组基线信息之间可能的不平衡，首先可以通过在随机过程中分层因素的合理运用来减少不平衡的程度，其次，只有在随机对照试验中才能检测到这种不平衡并加以定量化。

对方声称SA-II能够在较小的样本量的情况下，提供同样的检验效能和把握度的说法是不正确的。SA-II的检验效能和把握度，只是其假设的值，而基于SA-II研究固有的缺陷（入组人群的变异性，历史对照数据的不确定性以及选择偏倚）真实的错误率是无法确定的。

我们重申，许多因素有利于RP-II试验的使用。在研究终点方面，传统的SA-II的研究终点ORR,对于细胞抑制性的靶向药物来说并不是一个合适的研究终点。而适用于靶向药物的时间依赖性研究终点，PFS和OS等极易受到非治疗因素的影响，因此SA-II可能并不能很好的估计此类药物的临床疗效。RP-II试验也更加适用于联合用药的试验。因为在这种情况下，SA-II研究并不能有效的区分临床获益是由于新药联合标准疗法引起的，还是由于选择偏倚或者标准治疗本身的疗效提高而引起的。最后，如要想要研究某个生物标记物的预后/预测作用，那么RP-II设计是必须的。

总结陈词

虽然双方都对自己支持的试验设计提出了充分的理由，但是双方也承认，有效的药物开发需要综合运用两种设计。SA-II可能更适用于以ORR为研究终点的单药试验，特别是针对罕见肿瘤。而RP-II更加适用于联合用药的试验或者以时间依赖性研究终点作为主要研究终点的试验。当然，我们还需要更多得研究来比较SA-II和RP-II的有效性，并且开发更多合适和有效的二期临床试验设计。

小编总结：以上争论仅仅是针对两种设计理论上的优缺点，而两者实际上孰优孰劣，并无定论，Eur J Cancer最近发表的一篇综述就发现，在预测肿瘤三期临床试验的成功率方面，两者并没有统计学差别，因此选择RP-II还是SA-II设计要根据试验本身的特性和研究者现有的条件综合考虑，并没有绝对的好坏之分。

参考文献

Hui K. Gan, Axel Grothey, Gregory R. et al. Randomized Phase IITrials: Inevitable or Inadvisable? J Clin Oncol 28:2641-2647, 2010.

Jose G. Monzon , Annette E. Hay, Gail T. McDonald, et al. Correlationof single arm versus randomised phase 2 oncology trial characteristics withphase 3 outcome Eur J Cancer 51:2501-2507, 2015.

信息来源：医统江湖