首页 > 文章详情

大型语言模型在医学编码查询中的局限性

2024年04月28日

编译：肿瘤资讯

在2024年4月19日发表于《NEJM AI》的一项研究中，由Ali Soroush博士带领的研究团队对大型语言模型（LLMs）在自动临床编码中的应用进行了深入探讨。这项名为“Large Language Models Are Poor Medical Coders — Benchmarking of Medical Code Querying”的研究，通过对比分析GPT-3.5、GPT-4、Gemini Pro和Llama2-70b Chat等不同LLMs在处理医学账单代码查询时的表现，揭示了这些模型在精确映射医学代码方面存在的显著问题。

研究团队利用Mount Sinai Health System的电子健康记录（EHR）数据，对超过27,000个独特的ICD-9-CM、ICD-10-CM和CPT代码进行了评估。结果显示，即便表现最佳的GPT-4模型，其精确匹配率也未能超过50%，而Llama2-70b Chat的准确率更是低于5%。这一发现强调了LLMs在医学编码任务中的基础性能限制。尽管这些模型能够生成与正确代码在概念上相似或正确的代码，但它们在精确性和避免虚构信息方面的表现令人担忧，这对于临床决策、账单、质量改进、研究和卫生政策等方面具有重要影响。

研究的结论指出，尽管当前的LLMs在简单代码查询中存在挑战，但通过微调、工具使用或检索增强生成等策略仍有改进空间，并为医学编码生成提供了系统化和自动化的评估方法。

参考文献

[1]Ali Soroush, Benjamin S. Glicksberg, Eyal Zimlichman, et al. Large Language Models Are Poor Medical Coders — Benchmarking of Medical Code Querying. NEJM AI 2024;1(5)
Published April 19, 2024.DOI: 10.1056/AIdbp2300040

责任编辑：肿瘤资讯-JRN
排版编辑：肿瘤资讯-JRN

2024年04月28日

武亚东

首都医科大学附属北京友谊医院 | 肿瘤外科

好好学习天天向上