首页 > 文章详情

下一代多中心研究：利用人工智能自动处理多家机构肺癌患者的非结构化健康记录

05月27日

整理：肿瘤资讯

来源：肿瘤资讯

从非结构化的医疗记录中手工提取真实世界数据，不仅耗费大量人力，还容易出现错误，且不同医院之间的操作差异很大。大语言模型提供了一种更具扩展性的替代方案，但在多中心肿瘤研究中的表现尚缺乏充分验证。一项近期发表的研究结果显示，人工智能从肺癌患者的病历中提取31个临床变量时，整体错误率为7.0%，低于人工提取的14.2%。对于基因突变、合并症和转移部位等多选变量，人工智能的F1分数也更高。不同中心之间的结果一致性更优。若结合人工对30%低置信度结果进行复核，错误率可进一步降至4.4%。基于人工智能提取数据得到的生存分析结果，与专家核定的真实情况高度一致。这些发现支持在多中心研究中借助人工智能高效生成高质量真实世界数据，并具备向前瞻性临床试验推广的潜力。

背景

高质量数据是肿瘤学可靠证据的基础。临床试验是评估疗效与安全性的金标准，而真实世界数据（RWD）可补充常规诊疗信息，包括弱势人群的治疗结局和罕见肿瘤亚型特征。目前，RWD越来越多地用于指导试验设计，如估算事件发生率或构建合成对照组。

多中心研究有助于生成具代表性的数据集，减少偏倚。但大多数病历以非结构化格式存储，机构间术语与质量差异大。当前RWD主要依赖人工提取，费时易错，错误率可达2.3%–26.9%，且受制于本地资源，导致机构差异和小型医院参与困难。自然语言处理（NLP）与大语言模型（LLM）被视为可扩展的替代方案，但多局限于单中心或少数变量，高性能模型常为专有或需强大算力。我们提出“下一代多中心研究”概念，采用集中云平台与标准化数据模型，利用LLM自动提取跨机构病历数据。本研究首次在多中心、31个变量场景中，直接对比LLM（lucc‑ai‑1）与人工提取的性能，并评估机构一致性及混合人机工作流的价值。

研究方法

本研究在法国大型统一癌症队列（LUCC）联盟下开展。该联盟于2023年6月启动，利用AI结构化病历建立多癌种真实世界数据（RWD）队列，初期聚焦肺癌。成员涵盖各类医院，各机构保留数据所有权，企业（Lifen）提供AI技术。参与中心直接导出PDF病历，无需系统互操作。截至2025年7月，LUCC-肺癌队列纳入10,327例成年患者（自2021年2月起至少一份报告）。验证研究从中随机分层抽取311例（≥5份法语记录，无其他肿瘤史），作为独立测试集。

研究选取31个临床变量（人口学、风险因素、合并症、分子标志物、一线治疗及随访等），其中28个为标准格式（唯一正确答案，可标为null），3个为多选（基因、合并症、转移部位）。设三个比较组：人工组（专业人员手动录入）、AI组（lucc‑ai‑1自动提取）、混合组（人工复核最低30%置信度预测）。真实值为三组一致值，不一致由盲态专家据原始文件裁定。主要终点为错误率；次要终点包括各变量表现、机构间变异、F1评分、混合流程增益及生存分析。样本量300例提供98%效能。研究符合欧盟及法国数据保护法规，获伦理批准。AI模型（lucc‑ai‑1，见图1）采用Mistral‑24B微调，经预处理、文档级预测、迭代校正及患者级融合，输出与人工标注比对。

图1. 人工智能（AI）流程lucc-ai-1及真实世界数据结构化工作流程概览

研究结果

患者与数据特征

共纳入10个中心的311例患者（各中心9–73例），使用5505份源文件。人工提取由经验丰富的临床研究专业人员完成（中位经验5年，肺癌专业4年）。AI处理每位患者中位12份文档，人工提取中位耗时17.5分钟/例，AI计算时间约1.7分钟/例。

整体性能与变量表现

28个标准格式变量（可标null）共8708个数据点，AI错误率为7.0%（611处错误），显著低于人工的14.2%（1240处错误）（P<0.001）；非null子集（5512点）中，AI错误率11.1% vs人工22.5%（P<0.001）（图2）。所有31个变量中AI错误率均低于人工（图4A）。多选变量微F1评分：基因改变AI 0.96 vs人工0.86，合并症0.86 vs 0.75，转移部位0.70 vs 0.68（图4B）。AI中心间错误率变异（0.12%）低于人工（0.39%），且人工耗时与错误率正相关（r=0.662）（图3）。

图2. 人工智能（AI）与手动提取相比真实值的总体表现

图3. 各机构的数据提取表现与工作量

图4. 按变量类型划分的AI与手动提取表现

混合流程与生存分析

复核最低置信度30%的AI预测，完整支持错误率从7.0%降至4.4%，非null支持从11.2%降至7%（图5）。混合流程人均审核时间4.6分钟，较人工提取减少73.7%。AI提取的生存曲线与真实值高度一致：一线化疗免疫治疗患者中位总生存期均为20.1个月，人工为23个月；中位无进展生存期均为8.1个月，人工为10.1个月（图6）。AI识别的基因组改变假阴性（5 vs 13）和假阳性（2 vs 16）均少于人工。

图5. 人工智能-人工混合方法

图6. 基因组改变频率与生存结局

结论

本研究验证了集中式LLM框架（lucc‑ai‑1）从非结构化病历中自动提取肺癌研究变量的有效性。与人工提取相比，该模型错误率更低，中心间一致性更高。通过减少人力依赖和标准化数据采集，这一方法支持构建可扩展、对本地研究基础设施依赖性更低的“下一代”多中心研究模式，并有助于纳入更多小型医院，从而提升真实世界肿瘤数据的代表性。

参考文献

Aldea M, Zullo L, Levrat V, et al.Next-generation multicenter studies: using artificial intelligence to automatically process unstructured health records of patients with lung cancer across multiple institutions. Ann Oncol. 2026 Apr;37(4):490-502. doi: 10.1016/j.annonc.2025.12.006. Epub 2025 Dec 15. PMID: 41407195.

审批编号：CN-184007 有效期：2026-8-23

声明：本材料由阿斯利康提供，仅供医疗卫生专业人士进行医学科学交流，不用于推广目的。

责任编辑：肿瘤资讯-Yuno
排版编辑：肿瘤资讯-李鑫