您好,欢迎您

大型语言模型在临床肿瘤学中的应用与评估

04月28日
编译:肿瘤资讯

2024年4月16日,由Nicholas R. Rydzewski博士带领其团队在《NEJM AI》上发表的原创文章《Comparative Evaluation of LLMs in Clinical Oncology》,对大型语言模型(LLMs)临床肿瘤学中的效能进行了全面评估

研究团队测试了五个公开可用的LLMs(包括LLaMA 1、PaLM 2、Claude-v1、GPT-3.5和GPT-4)在2044个肿瘤学问题上的表现,这些问题涵盖了医学肿瘤学、外科肿瘤学、放射肿瘤学、医学统计学、医学物理学和癌症生物学等多个领域。研究结果表明,GPT-4是唯一表现超过人类基准测试(2013年和2014年考试结果)的模型,但其准确性仍有提升空间。研究强调了在将这些AI工具整合到临床实践中时,持续标准化评估其优势和局限性的重要性。
在研究的第二部分,作者讨论了提高LLMs可靠性的策略,包括模型选择提示重复置信度自评估。这些策略有助于识别出错误率较低的问题子集。此外,研究还开发了一个新的验证问题集,用于评估模型在没有数据泄露风险的情况下的表现。最新模型GPT-4 Turbo和Gemini 1.0 Ultra在验证集上展现了最高的性能。研究由美国国立卫生研究院临床中心研究基金和美国国立卫生研究院内研项目资助。

参考文献

[1]Nicholas R. Rydzewski, Deepak Dinakaran, Shuang G. Zhao, et al. Comparative Evaluation of LLMs in Clinical Oncology. 
NEJM AI 2024;1(5)Published April 16, 2024.
DOI: 10.1056/AIoa2300151


责任编辑:肿瘤资讯-JRN
排版编辑:肿瘤资讯-JRN


版权声明

本文专供医学专业人士参考,未经著作人许可,不可出版发行。同时,欢迎个人转发分享,其他任何媒体、网站如需转载或引用本网版权所有内容,须获得授权,且在醒目位置处注明“转自:良医汇-肿瘤医生APP”