您好,欢迎您

大型语言模型在医学编码查询中的局限性

04月28日
编译:肿瘤资讯

在2024年4月19日发表于《NEJM AI》的一项研究中,由Ali Soroush博士带领的研究团队对大型语言模型(LLMs)在自动临床编码中的应用进行了深入探讨。这项名为“Large Language Models Are Poor Medical Coders — Benchmarking of Medical Code Querying”的研究,通过对比分析GPT-3.5、GPT-4、Gemini Pro和Llama2-70b Chat等不同LLMs在处理医学账单代码查询时的表现,揭示了这些模型在精确映射医学代码方面存在的显著问题。

研究团队利用Mount Sinai Health System的电子健康记录(EHR)数据,对超过27,000个独特的ICD-9-CM、ICD-10-CM和CPT代码进行了评估。结果显示,即便表现最佳的GPT-4模型,其精确匹配率也未能超过50%,而Llama2-70b Chat的准确率更是低于5%。这一发现强调了LLMs在医学编码任务中的基础性能限制。尽管这些模型能够生成与正确代码在概念上相似或正确的代码,但它们在精确性和避免虚构信息方面的表现令人担忧,这对于临床决策、账单、质量改进、研究和卫生政策等方面具有重要影响。

研究的结论指出,尽管当前的LLMs在简单代码查询中存在挑战,但通过微调、工具使用或检索增强生成等策略仍有改进空间,并为医学编码生成提供了系统化和自动化的评估方法

参考文献

[1]Ali Soroush, Benjamin S. Glicksberg, Eyal Zimlichman, et al. Large Language Models Are Poor Medical Coders — Benchmarking of Medical Code Querying. NEJM AI 2024;1(5)
Published April 19, 2024.DOI: 10.1056/AIdbp2300040


责任编辑:肿瘤资讯-JRN
排版编辑:肿瘤资讯-JRN


版权声明

本文专供医学专业人士参考,未经著作人许可,不可出版发行。同时,欢迎个人转发分享,其他任何媒体、网站如需转载或引用本网版权所有内容,须获得授权,且在醒目位置处注明“转自:良医汇-肿瘤医生APP”


领新版指南,先人一步>>
查看详情

评论
04月28日
武亚东
首都医科大学附属北京友谊医院 | 肿瘤外科
好好学习天天向上