您好,欢迎您

前沿分享 | 大语言模型在医学概率预测中的显式与隐式概率:可靠性对比及其临床决策价值探索

03月02日

来源:智能肿瘤学



大语言模型(LLMs)近年来在医疗领域表现出强大的潜力,尤其在多样化任务和数据稀缺的情况下表现优异。然而,LLMs在概率预测上的可靠性尚未被充分研究,特别是显式概率和隐式概率之间的差异。发表在 npj Digital Medicine 上的文章 Probabilistic medical predictions of large language models 评估了LLMs在医疗预测中的概率输出质量,并比较了显式概率和隐式概率方法的可靠性。


研究背景

在医疗领域中应用AI,特别是LLMs,预测结果的概率(或置信度)十分重要。可靠的概率预测对于透明决策、患者风险分层和设置概率阈值至关重要,因为它能帮助医生根据不同的风险水平对患者进行分层管理,并设定合适的决策阈值,从而在召回率和精确率之间找到平衡。例如,在筛查应用中,可以使用较低的阈值来避免漏诊。


LLMs 在临床应用中表现出卓越的通用能力,尤其在数据稀缺且任务多样的医学场景中,其少样本或零样本学习能力使其能在少量标注数据下做出准确预测。基于提示的 LLMs 使用灵活,无需大量模型训练即可执行不同任务。


研究方法

文中区分了2种概率生成方式:显式概率和隐式概率。显式概率是通过提示直接生成的,例如通过在提示中要求模型提供预测概率。显式概率方法简单灵活,但由于LLMs在数值推理上的局限性,其生成的显式概率的可靠性可能较低。相比之下,隐式概率基于模型内部的生成评分,可以通过提取模型预测标记的概率来计算。然而,隐式概率的提取通常仅适用于简单的任务场景,特别是在一些高级提示(如思维链)或专有模型中,隐式概率的提取受到限制。因此,探讨LLMs概率预测的质量和优化方法显得尤为重要。


图1  研究的概念框架




数据来源

研究使用了5个医疗数据集,包括4个公开数据集(MMLU-CK、MMLU-CM、USMLE、MCMLE)和1个内部电子健康记录(EHR)数据集MGB-SDoH。




实验设计

选取6个先进的开源LLMs进行测试,并对每个问题设计二选一的任务格式,以便计算受试者工作特性曲线下面积(AUROC)和精确率-召回率曲线下面积(AUPRC)等评估指标。




概率提取

使用正则表达式从LLMs生成文本中提取明确概率,同时计算隐含概率以比较两者的表现。




评估维度

对LLMs的准确性、AUROC、AUPRC进行3次重复实验,分析概率分布和数据集不平衡对性能的影响。


研究结果



模型表现:

所有LLMs指令遵循良好,大型LLMs在不同数据集上准确率较高,隐式概率的AUROC和AUPRC指标普遍高于显式概率,且多数结果差异显著。




模型大小影响:

大型LLMs在显式和隐式概率的AUROC上大多优于小模型,小模型显式和隐式概率AUROC差异更大,隐式概率更能代表模型实际预测概率。




不平衡数据集影响:

多数LLMs的AUPRC差异随数据集不平衡程度增加而增大,显式概率在不平衡数据集下表现较差。




概率分布:

除个别模型外,LLMs在各数据集上性能较好,隐式概率分布更分散,多数LLMs显式和隐式概率分布极化,与数据泄露无关。




敏感性分析:

在不同提示下,隐式概率的AUROC仍高于显式概率,特定提示因引入复杂设置使两种概率的AUROC均下降。


图2  大型和小型LLM的AUROC

(a.USMLE数据集上大型和小型LLM的AUROC;b.MGB-SDoH数据集上大型和小型LLM的AUROC)



图3  不平衡的USMLE数据集上大型LLM的AUPRC差异


研究结论

该研究表明,LLMs在医疗保健中的概率预测方面,显式概率虽简单灵活,但可靠性低于隐式概率,尤其在小型LLMs和标签分布不平衡任务中,可能放大模型偏差,影响临床决策,隐式概率在可靠性上更具优势。


显式概率的不可靠性提醒使用者在临床应用中需谨慎对待,可通过隐式概率监督微调LLMs的显式概率输出,或提升模型数值推理能力来改进。准确的显式概率可作为检测LLMs幻觉的关键指标,低概率可能预示更高幻觉风险。该研究存在一定局限性,如实验简化为二进制分类,未涉及某些复杂提示下的概率性能,仅适用于开源LLMs,结果主要基于医疗数据集,通用性需进一步验证。但总体而言,本研究为LLMs在医疗领域的概率预测应用提供了重要参考,有助于推动相关技术的改进和完善。



参考文献

Gu, B., Desai, R.J., Lin, K.J. et al. Probabilistic medical predictions of large language models.npj Digit. Med . 7, 367 (2024).

责任编辑:肿瘤资讯-DLF
排版编辑:肿瘤资讯-Z  Y

版权声明

本文仅供专业人士参看,文中内容仅代表智能肿瘤学立场与观点,不代表肿瘤资讯平台意见,且肿瘤资讯并不承担任何连带责任。若有任何侵权问题,请联系删除。