肿瘤治疗已经进入了精准医学时代,我国政府出台了一系列政策促进药品研发,其中新药的临床试验则是这一切的基础。为顺应广大肿瘤医生以及研究团队自我提升的需求,由北京肿瘤学会临床研究专委会发起“研究型医院能力提升项目”,创造与国际、国内高水平临床研究领域专家深度学习和交流的机会。第二期胃腺癌临床试验专场,北京大学肿瘤医院沈琳教授、何忠虎教授、龚继芳教授和北京协和医院赵林教授通过直播连线的方式,与美国杜克大学临床研究所罗晟教授围绕胃癌临床研究设计、案例以及实践中的问题进行了深入探讨。
大会主席沈琳教授在开场致辞中指出:临床研究过程中会遇到研究设计、研究解读、统计学和临床价值之间的关系等系列问题,尽管肿瘤治疗已经倡导进行多学科协作,但由临床医生和统计学专家共同讨论,针对性解决临床研究问题的机会并不多见,这也正是本次会议的价值所在。
应该关注肿瘤生物学特征对临床研究设计的影响
讲者:沈琳教授
沈教授谈到,近年来,肿瘤的临床研究形式趋于多样化,正在由过去的从Ⅰ 期到Ⅲ期逐期研究,转变为现在基于基因分型的篮子研究和伞式研究,从而实现异病同治的理念。然而,以分子标志物为导向的临床研究尚存在一系列的问题,主要包括:其一,同一靶点在不同癌种的驱动程度不同;其二,伴随基因突变或信号通路激活不同;其三,肿瘤的免疫微环境不同也会影响疗效。针对第一个问题,以HER2为例,HER2在HER2阳性的乳腺癌患者中,呈现均质性的高表达,但是在胃癌中为点状或片状表达。由于此生物学行为的不同,使得曲妥珠单抗在胃癌和乳腺癌中抗HER2治疗后耐药机制亦存在极大差异,在临床试验上的体现在于除了曲妥珠单抗之外,胃癌的后续抗HER2治疗的探索全部失败,其中,亦包括T-DM1。
沈教授强调,作为临床研究者需要明确的是一个药物在一个瘤种中的失败,不等于这一类药物的失败,国产的抗体偶联药物RC48-ADC,不论在乳腺癌还是胃癌中都具备相应的临床活性,已成为临床研究的一大热门话题。
除此之外,MET作为耐药的主要机制之一,在胃癌中也进行了相应的探索。虽然既往的治疗探索均告失败,但是近年来亦看到了些许前景,主要体现在发现了点突变、扩增、外显子14跳跃和融合所呈现的生物学行为不同。在基础研究中,MET抑制剂沃利替尼在c-MET扩增胃癌的PDX中具有抗肿瘤活性,遗憾的是由于沃利替尼的单药有效率跨度较大,而且,使用RECIST标准进行评估时,存在局限性,因此,后续的研究不得不停止。
沈教授还谈到,在食管癌和胃癌的全球性临床研究中,各个地域之间由于饮食习惯、诊疗模式的不同,导致肿瘤的免疫微环境和发病原因亦不同,简单将其汇总研究分析,这会导致诸多隐患。因此如何消除地域差异对国际多中心临床研究的影响,也是研究者需要思考的问题。
沈教授指出,未来,以分子标志物为导向的临床研究的方向,应该是关注不同瘤种的生物学行为、临床特征以及基因背景的差异,同时,加强合作、借鉴失败,这才是未来的成功之路。
沈琳教授
胃癌临床研究的终点选择、α分配和样本量计算
讲者:罗晟教授
罗教授从终点选择、α分配及样本量计算三个层面阐述了胃癌临床研究中的设计问题。罗教授指出,在胃癌的临床研究中,样本量的计算主要取决于客观缓解率(ORR)无进展生存(PFS)和总生存(OS)这3个随机变量。关于终点的选择,最重要的一点是根据临床的重要性进行排序,将临床上最重要的终点设为主要终点,但是,在实际操作中某些终点发生的事件相对较少,此时,可以根据临床试验终点成功的概率进行排序。比如,在资金和时间都有限的情况下,可以将研究终点从OS更换为PFS或者ORR。
FDA将终点分为3类:主要终点、次要终点和探索性终点。多个终点的选择分为2类:第一种是共同主要终点(co-primary endpoints),这种情况下必须每个终点都达到统计学上的显著性才能认为药物有效,但无需分配α值,由于多个终点同时达到统计学显著性的要求比较严苛,一般设计时很少选用这类终点;另一种是多终点(multiple endpoints),这种情况下是只要有一个终点是阳性就可以认为药物药效,但α值必须要分配。
如果次要终点对药物的有效性具有非常重要的意义,那么在计算样本量的时候也要把次要终点纳入考虑。比如:以ORR作为主要终点,疗效的另两个终点PFS和OS作为次要终点,则采用守门检验的策略(Gatekeeping testing strategy),先做ORR这个主要终点的假设检验,如果阳性,接下来做PFS的假设检验,如果仍为阳性,则最后做OS的假设检验。次要终点的假设检验必须在主要终点达到阳性的前提下才能做。
针对两位专家的演讲及临床研究设计中大家所关注的问题,在龚继芳教授的主持下,与会嘉宾进行了热烈的讨论。
议题讨论
问:
沈琳教授:临床试验过程中,临床意义和统计学意义应该更倾向于关注哪一个?在当下铺天盖地的临床试验中,往往为了统计学数值上的微小差异,进行样本量越来越大的研究,研究者的负担越来越重。其实,我们应该思考的问题是哪些方法能够真实地反映出某个药物在部分患者中切实有效,不知道罗晟教授对这个问题怎么看?
赵林教授:我有三个方面的问题,其一,Ⅱ期探索性的研究如何设置样本量?其二,临床研究在随访过程中,P值发生变化,如何判断到底是阳性结果还是阴性结果?其三,Ⅰ、Ⅱ、期、Ⅲ期临床试验的时间、精力,如何分配?
答:
何忠虎教授:P值和临床疗效差异之间存在着内在的联系,P值存在的目的是告诉我们这个差异存在的是否令人信服。如果出现了两个P值,分别是0.049和0.051,前者生存曲线挨得近,后者生存曲线分得开,此时,则需要结合两者进行分析,毕竟P值只是犯错概率的问题,并非对与错、生与死的差别。若样本量足够大,则建议进行深入的研究,让结果变得更可信。对于全球性临床试验,鉴于各区域的差异问题,作为研究者在研究设计时候需要具备预见性,若混杂因素会对结果带来影响,则需要进行分层分析。针对Ⅱ期探索性试验的样本量设计问题,建议将P值调高,如此可以让犯错的概率更高,让人倾向于使用更小样本量进行探索。对于多终点对α值消耗的问题,在Ⅲ期临床试验中应该附上α值,在Ⅱ期研究中,则仅需要寻找到主要的终点。
罗晟教授:在进行终点选择的时候,究竟选择一个还是多个主要终点,主要根据一个基本的原则:即如果选择多个终点,则需要进行α分配,对于较为容易达到的终点,分配的α值可以更小,而且,需要对所有的终点进行样本量计算。针对全球性临床试验,各区域的差异问题,最简单的方式就是在随机化的时候即进行分层,当然,试验组和对照组的分层因素会存在差异。在一个临床试验中,不建议设计为多个亚组、多个终点,建议设计成两个临床试验进行分析。
针对沈琳教授的感慨,个人亦觉得,临床试验不是简单的数学游戏,还涉及背后诸多研究者和患者所需要面临的负担。所幸现在已经有波音设计、贝叶斯设计等可以达到您所说的要求,最后,对各个临床试验的PI有一个忠告,就是不要着急进行Ⅲ期临床试验,应该将更多的精力放在前面的Ⅰ期和Ⅱ期临床研究。既往在Ⅰ期通过“3+3”探索合适的剂量后,紧接着就进行了Ⅱ期、Ⅲ期临床试验,这里面存在着巨大的风险。如果前期剂量没有探索好,后期可能事倍功半,对患者也是一个巨大的损失。
赵林教授
何忠虎教授
龚继芳教授
罗晟教授
大会总结
沈琳教授在大会总结致辞中指出,本次会议的主旨是“领创新、拓氏界”,未来,创新是必然趋势,由于现在诸多的早期临床研究依旧采取传统的方式进行统计分析,希望未来就早期临床研究的新式统计方法能能有更多的讨论机会,使得研究的设计既符合自然规律,又可以多、快、好、省地将早期临床研究进行得更扎实,争取降低临床试验的失败率,提高甄别率。
更多精彩话题,请扫下方二维码
观看全程会议内容
排版编辑:Awa