2026年美国临床肿瘤学会胃肠道肿瘤研讨会(ASCO GI)已于美国旧金山顺利召开。来自美国Dana-Farber癌症研究所的Kenneth L. Kehl教授在大会现场发表了题为“Artificial Intelligence and Clinical Trials Matching and Execution”的专题演讲,系统阐述了人工智能(AI)在临床试验领域的多元化应用场景。针对当前临床试验面临的四大核心问题——缺乏优质候选药物、试验成本高昂且失败率高、试验选项过多难以人工追踪、以及实施环节的诸多障碍,Kehl教授分别探讨了AI在药物设计、试验风险评估与可行性分析、患者-试验匹配与预筛选等方面的潜在应用价值。他强调,尽管AI的技术能力日益增强,但技术能力与研究实践之间仍存在巨大鸿沟,稳健的实施、整合与评估是将技术潜力转化为临床获益的关键。【肿瘤资讯】特此整理讲题重要内容。

临床试验入组的现实困境:
低参与率与高复杂性并存
Kehl教授在演讲开篇即明确提出三个核心结论:第一,AI越来越能够帮助患者与临床试验进行匹配,并为试验可行性评估提供信息支持;第二,技术能力与研究实践之间的鸿沟仍然巨大;第三,稳健的实施、整合与评估至关重要。
从历史数据来看,成人癌症患者参与治疗性临床试验的比例不足10%,尽管这一数字在过去20年间有所提升(此前常被引用的数据为不足5%),但整体水平仍然偏低。更值得关注的是,在社区医疗机构和社会经济弱势群体中,试验参与率更低。与此同时,临床试验本身也常常面临入组不足、难以达到预期统计学效力的局面。
Kehl教授认为,造成这些挑战的部分原因在于现代肿瘤临床试验的高度复杂性和靶向性,试验筛选所需的关键信息往往仅存在于电子病历的非结构化数据中,包括肿瘤类型与组织学特征、关键生物标志物、疾病负荷、既往治疗史(尤其是在其他医疗系统接受的治疗)以及可能影响入组资格的合并症等。
AI赋能临床试验:从药物设计到患者匹配
针对临床试验领域面临的核心问题,Kehl教授系统梳理了AI的潜在应用价值。

药物设计:AI分子生物学工具的崛起
在药物设计层面,以Google和DeepMind开发的系列工具为代表,AI正在为分子设计和靶点发现提供支持。AlphaFold可根据氨基酸序列预测蛋白质三维结构,为药物靶点的结构解析奠定基础;AlphaMissense能够评估错义突变的致病性,预测单一氨基酸改变是否会影响蛋白功能;AlphaGenome则可进行大规模综合基因组分析,识别与肿瘤相关的复杂遗传模式和相互作用,助力新靶点的发现。
试验风险评估与可行性分析:从入排标准优化到结局预测
临床试验成本高昂且失败率高,AI在风险评估和可行性分析方面的应用可为试验设计提供数据驱动的决策支持。Kehl教授介绍了多项代表性研究。
Trial Pathfinder研究利用来自全国电子病历数据库的61,094例晚期非小细胞肺癌患者数据,评估不同入排标准对试验人群规模和效应量估计的影响。结果显示,许多常见的排除标准对试验风险比的影响甚微,而数据驱动的标准优化可使符合条件的患者人群平均扩大1倍以上,同时对在研新药的总生存期(OS)风险比(HR)影响往往很小(仅下降0.05)。
MAP-OUTCOMES模型则尝试通过II期临床试验瀑布图中的肿瘤缓解数据预测无进展生存期(PFS)和OS。该研究分析了91项随机对照试验(RCT)(82项纳入最终分析),在预测试验成功方面达到71%的准确率,AUC为65%,AUPRC为90%,为基于短期肿瘤缓解数据的早期试验评估提供了潜在工具。
另有研究应用机器学习分析clinicaltrials.gov上的入排标准,预测试验提前终止的概率。结果同样发现了有意义的信号(平衡准确率为0.70)。研究采用SHAP方法解释预测结果并识别导致提前终止的关键特征,有助于在试验设计阶段优化方案、降低失败风险。
患者-试验匹配:从商业平台到开源解决方案
在患者-试验匹配领域,目前已涌现出众多AI平台,涵盖了分子检测公司的衍生服务、面向患者的自助匹配工具、真实世界数据公司的扩展业务以及制药企业的内部工具等多种形态。
Kehl教授重点介绍了Dana-Farber癌症研究所开发的开源临床试验匹配平台MatchMiner-AI。该平台的设计理念是仅基于电子病历中的非结构化数据和clinicaltrials.gov上的试验入排标准实现患者-试验匹配,且采用合成数据进行模型训练,在真实数据上进行评估,从而规避患者隐私泄露风险,确保模型可安全共享。
MatchMiner-AI聚焦于临床医生选择治疗方案时最关注的核心标准,包括年龄、性别、肿瘤类型与组织学特征、疾病负荷、既往治疗史和关键生物标志物,而非试图覆盖试验方案中的每一条入排标准。其核心工作流程围绕临床标准展开:首先使用大语言模型对患者病史进行重要信息提取,经过多轮迭代优化以解决电子病历中信息高度重复的问题;同时从试验入排标准中精准提取目标人群的简明描述。

他以COMMIT试验为例说明系统如何将冗长的入排标准浓缩为目标人群描述,包括年龄(≥18岁)、癌症类型(结直肠癌)、肿瘤负荷(可测量的转移性病灶)、既往治疗要求及必需的生物标志物(dMMR/MSI-H)等。

系统采用三步筛选流程:首先通过试验空间嵌入模型将患者和试验映射至虚拟向量空间以实现快速检索;其次通过基于大语言模型蒸馏的试验检查器对患者-试验组合进行细致评估;最后通过"boilerplate检查器"评估肾功能、血红蛋白等通用排除标准,这些标准决定的是患者是否普遍适合参加临床试验而非针对特定试验的资格。团队开发了面向医生的前端界面,可显示匹配试验列表及入组可能性评分,目前正在美国波士顿周边社区诊所试点收集反馈。Kehl教授还指出这些工具可以反向使用,评估医疗系统中有多少患者可能适合某项特定试验,这种以试验为中心的视角有助于研究者进行可行性评估和患者招募规划。该平台的预印本(preprint)已发布于arXiv,训练代码、推理代码示例、演示应用程序、合成数据及各模块模型均已开源。
从技术到实践:实施层面的挑战
尽管AI技术发展迅速,但在临床试验执行层面仍面临诸多实际障碍。Kehl教授坦言,这些挑战往往难以通过技术手段直接解决:某项试验今天可能没有适合特定类型患者的名额,而这些动态信息通常分散存储在各个助理和工作人员的Outlook邮箱和Excel表格中,因变化过于迅速而难以被AI系统有效获取和整合。其他挑战还包括:部分试验对患者要求过高(如频繁活检或过多的时间投入),导致患者入组意愿低;患者居住地距离试验中心过远;繁忙的门诊时段难以进行试验评估;以及试验信息往往仅在特定时间节点才具有临床相关性。
Kehl教授分享了一项旨在解决时效性问题的前期研究(OPTIONS研究),以说明AI在此领域实施的实际难度。该研究纳入了2023年1月至2024年7月期间所有接受OncoPanel(实体瘤二代测序)检测的成人患者,随机分为三组:第一组为对照组,仅采用标准MatchMiner工作流程,无AI主动通知;第二组为干预组,当患者同时满足存在基因组匹配、AI预测可能更换治疗方案、以及AI检测到疾病进展三项条件时,系统向主治肿瘤科医生发送邮件通知;第三组在第二组标准基础上增加人工审核标准。研究主要观察临床试验入组率和知情同意率。
结果显示,在各组(从所有接受测序的患者到开始新治疗的患者)中,干预组的入组率和知情同意率仅有极其轻微的提升,未能达到预期效果。这一结果表明,将AI工具真正融入临床试验工作流程并产生可检测的效果远非易事。

结语
Kehl教授总结道,AI在患者-试验匹配和试验可行性评估方面的能力正日益增强,但技术能力与研究实践之间仍存在巨大鸿沟,稳健的实施、整合与评估至关重要。鉴于技术的快速演进及其与研究实践对接的复杂性,目前仍难以准确预测AI在这一领域的最终应用形态。
排版编辑:肿瘤资讯-Marie






苏公网安备32059002004080号