您好,欢迎您

AI挖掘电子病历“真金”!研究显示AI数据提取错误率仅为人工一半,开启多中心研究新时代

11月07日
编译:肿瘤资讯
来源:肿瘤资讯

在全球肿瘤学界,如何高效、准确地从海量的电子健康记录(EHR)中获取高质量的真实世界数据(RWD),始终是推进临床研究的一大瓶颈。
传统的临床研究项目,无论是真实世界数据库还是临床试验,都严重依赖手动数据收集。然而,我们面临的现实是:高达80%的医疗信息是以非结构化的文本形式(如病程记录、MDT报告等)存在的。人工去提取这些信息,不仅给医疗机构带来了巨大的行政负担,更导致了惊人的错误率——研究显示,这包括5%-10%的打字错误和高达30%的摘要提取错误。这些“不干净”或不完整的数据,严重制约了真实世界研究的质量和效率。
2025年世界肺癌大会(WCLC 2025)上,法国顶尖癌症中心Gustave Roussy的Mihaela Aldea博士带来了一项题为“Panning for Gold: 挖掘电子病历中的‘真金’”主题报告,无疑为整个领域带来了颠覆性的启示。

LUCC队列研究正面挑战了人工数据提取的“金标准”地位。研究结果显示,在从非结构化病历中提取数据时,人工智能(AI)的错误率(7.1%)显著低于经验丰富的临床研究专业人员(14.8%)。而“AI+人工审查”(审查30%低置信度数据)的混合模式更是将错误率降至4.4%。

这一结果意义重大,它预示着一个由AI驱动的高质量、高效率真实世界研究新时代即将到来。

解决方案:LUCC队列——使用AI进行多中心数据收集

面对传统数据收集的种种瓶颈和挑战,临床研究领域迫切需要一种创新的解决方案来自动化和标准化这一过程。正是在这一迫切需求下,为了解决这一难题,法国Gustave Roussy癌症中心与Lifen合作,于2024年1月启动了LUCC肺癌队列研究。这是一个利用AI进行多中心数据收集的创新项目。

该框架通过安全的数据传输协议(如HL7、SFTP)和虚拟打印机技术,从多个医院中心收集各种医疗报告(如住院报告、手术报告、MDT报告、转诊信等)。随后,AI平台对这些非结构化文档进行自动处理、去标识化和数据构建,最终形成可用于伴随研究、数据看板和监管提交的结构化数据库。

eaa5cf80-1186-493a-abe0-51ef466e1f2d.png

AI如何工作:从训练到可追溯的提取

LUCC项目的方法学严谨且透明:

  1. 安全处理:AI平台首先对文档进行光学字符识别(OCR)以提取文本,随后自动去重并清理掉文档模板等非医疗内容。

  2. LLM训练与微调:团队使用了10,016名患者的数据作为训练集。临床研究专业人员首先对这些文档进行手动注释,创建一个高质量的“标记文档数据集”。随后,使用该数据集对大型语言模型(LLM)进行特定任务的微调。

  3. 可追溯提取:该AI平台的一个关键特性是每一条提取的数据都可追溯至其在原文中的来源。例如,AI能准确从病历中提取“诊断时吸烟状态:老烟民”和“吸烟年包数:40”,并清晰展示原文证据。

388f1a5e-8daa-4539-9d7e-39a614877f34.png

巅峰对决:AI vs 人工 vs 混合模式

为了验证AI的真实能力,研究团队设计了一项严格的对比研究。

研究设计

测试集: 纳入来自10个中心的311名患者,评估31个关键变量。

对比方法:

  • 人工提取组:由临床研究专业人员手动提取。

  • AI提取组:使用Lifen训练的AI模型自动提取。

  • 混合方法组:AI提取后,再由人工审查30%置信度最低的数据点。

b1054b49-0bd1-4e9d-8389-83d1cdde6255.png

黄金标准(Ground Truth):由所有方法一致的值定义,不一致处由盲法专家裁决。

研究结果

1.总错误率:人工提取组的错误率高达14.8%,而AI组仅为7.1%(p<0.001),错误率降低了一半以上

2.一致性:AI的错误方差(0.108)远低于人工(0.334),表明AI在不同中心和不同病例间的表现更加稳定。人工提取的错误率在不同机构间波动极大,而AI则普遍保持了较低的错误水平。

3.时间与错误的关系:有趣的是,数据显示,人工提取花费的时间越长,错误率反而有越高的倾向

b4db1c41-f026-4719-a56f-53b30584fc6f.png

AI在所有变量上均表现更优

进一步分析显示,无论是“出生日期”这样的简单变量,还是“L1治疗开始日期”、“进展日期”等复杂纵向变量,AI在所有31个变量上的错误率均低于人工提取。在F1评分(综合评估准确性和召回率)上,AI(黄点)在“合并症”、“突变基因”和“转移部位”等复杂变量上的表现也全面优于人工(蓝点)

9408351c-5c5d-461b-8ee1-c275baba495e.png

最佳策略:“AI + 人工”混合模式,错误率低至4.4%

研究进一步探索了“AI+人工”的混合模式。AI在进行每一次提取时,都会生成一个“置信度分数”。

研究团队发现,仅需人工审查AI置信度最低的30%的数据,便可将最终的错误率从7.1%进一步降低到4.4%。这种混合方法在处理“进展日期”、“L1结束日期”等公认的难点变量时,优势尤为明显。

c2eed32d-a750-4faf-a26e-fe19a71c0bf5.png

对真实世界结局的影响:AI数据更接近“金标准”

数据提取的最终目的是否能用于生存分析?研究给出了肯定的答案。

基因突变:在识别KRAS、EGFR、HER2等基因变异时,人工提取(深蓝色)的错误率明显高于AI(黄色)和金标准(浅蓝色)。

生存曲线:由AI提取数据绘制的总生存期(OS)曲线(黄线)与“金标准”曲线(浅蓝线)几乎完全重合,证实了AI提取数据的高可靠性。

4a4265a0-5fd6-4f87-babf-aaba7856c347.png

结论与未来展望

该研究证实在变量和中心两个维度上,AI的表现均优于临床研究专业人员。

研究的经验教训包括:

  • 高质量的标记训练数据是必需的。

  • AI预测必须可追溯,以便在训练中迭代纠错。

  • LLM的“幻觉”问题可以通过预定义值集来缓解。

  • 纵向变量(如治疗线、进展)的提取难度更大。

  • 在缺乏质量核查的情况下,人工错误率高得惊人。

最佳方法是混合审查。研究显示,即便是只审查10%置信度最低的预测,也能带来最大的错误率降幅。

该研究为“下一代”多中心研究铺平了道路。该技术能够节省大量时间和金钱,实现数据的协调和定期更新,并使更多小型医疗中心能够参与到大型研究中。未来,该模式有望跨越国界,扩展到国际中心,并在前瞻性试验中得到验证。


参考文献

WCLC 2025.

责任编辑:肿瘤资讯-Nydia
排版编辑:肿瘤资讯-Nydia


版权声明
本文专供医学专业人士参考,未经著作人许可,不可出版发行。同时,欢迎个人转发分享,其他任何媒体、网站如需转载或引用本网版权所有内容,须获得授权,且在醒目位置处注明“转自:良医汇-肿瘤医生APP”。

评论
11月07日
戴明
厦门市中医院 | 肿瘤科
5%-10%的打字错误和高达30%的摘要提取错误。这些“不干净”或不完整的数据,严重制约了真实世界研究的质量和效率
11月07日
麻青
鹤壁市人民医院 | 肿瘤内科
好好学习天天向上
11月07日
龙平
衡阳市第一人民医院 | 肿瘤内科
好好学习,天天向上