您好,欢迎您

前沿分享 | Nature:视觉-语言模型MUSK在精准肿瘤学中的突破与应用

03月16日

来源:智能肿瘤学

“A vision–language foundation model for precision oncology”一文发表在顶级期刊Nature上,该研究开发了一种名为MUSK的视觉-语言基础模型,旨在解决精准肿瘤学中的多模态数据整合与分析问题,为癌症的诊断、治疗和预后提供更有效的工具和方法。


引言

临床决策的制定高度依赖多模态数据,涵盖临床记录、病理特征等多个方面。人工智能(AI)在整合多模态数据方面展现出巨大潜力,有望推动临床医疗的进步。然而,临床环境中高质量标注的多模态数据集极为稀缺,严重阻碍了实用模型的开发。在此背景下,本文提出MUSK模型,通过在大规模未标注的图像和文本数据上进行预训练,在众多下游任务中表现优异,对癌症诊断和精准治疗具有重要意义。


研究背景

临床实践里,医生做出诊断和治疗决策并非依据单一数据来源,而是综合患者基本信息、病史、影像学结果以及疾病的病理特征等多方面信息。因此,准确的临床决策需要对多模态数据进行有效整合与分析。AI技术的发展为整合多模态数据带来了新的契机。基础模型在医学AI研究中崭露头角,这类模型在大规模多样数据集上进行预训练,只需少量微调甚至无需进一步训练即可应用于多种下游任务,相较于传统方法具有显著优势。目前多模态AI模型发展面临的主要障碍是缺乏高质量标注的数据集,尤其在临床领域。现有医学视觉-语言基础模型大多基于对比学习,依赖成对的图像-文本数据进行预训练,数据规模与自然视觉-语言模型相比差距较大,难以全面捕捉疾病谱的多样性。此外,以往研究多集中于简单任务,如癌症检测和诊断,对于用多模态基础模型预测治疗反应和结果的研究较少,而这对精准医学的治疗决策具有重要意义。


医患关系的智能化重塑



研究对象

本研究聚焦于开发一种名为MUSK的视觉-语言基础模型,用于精准肿瘤学领域。该模型旨在整合病理图像和临床报告中的信息,实现癌症相关的多种任务,包括癌症检测、诊断、分子生物标志物预测以及临床结果预测等。




数据特征

用于模型预训练的数据规模庞大且来源多样。其中,未配对的病理图像数据包含从11577名患者的近33000张全切片组织病理学扫描中提取的5000万图像补丁,代表了33种肿瘤类型;文本数据则是从1001800篇病理相关文章中提取的10亿文本标记。此外,还使用了100万图像-文本对进行对比学习,这些数据为模型的训练提供了丰富的信息,有助于模型学习到全面的特征表示。


研究方法



模型设计与预训练

MUSK模型的预训练过程基于BEiT3架构进行了创新。预训练分为两个主要阶段:第一阶段,利用掩码数据建模方法,在大规模未配对的图像和文本上进行训练,通过掩码语言建模(MLM)和掩码图像建模(MIM)损失函数分别对文本和图像进行处理;第二阶段,使用约100万图像-文本对进行对比学习,以对齐视觉和语言特征,建立图像与文本之间的联系。在模型架构上,采用了通用的多模态transformer作为骨干网络,结合了专家混合网络、多模态预训练和图像生成等技术的理念,包含共享的自注意力模块以及独立的视觉和语言专家模块。




多模态数据处理

为了进行模型的预训练,对多模态数据进行了精心整理。对于未配对数据,从PubMed Central Open Access Dataset获取文本标记,从TCGA获取病理图像补丁;对于配对数据,使用了QUILT-1M和PathAsst数据集。在对比学习阶段,为了提高数据质量,采用了类似BLIP的自训练方法,通过初步训练得到基线模型,过滤掉低相似度的图像-文本对,从而提升最终模型的性能。




实验设置与评估

使用了多个公开可用的基准数据集对MUSK模型在多模态检索、视觉问答、组织病理学图像分类等任务上的性能进行评估。在黑色素瘤复发预测、泛癌预后预测和免疫治疗反应预测等临床任务中,分别收集了相应的临床数据和病理图像数据,并结合这些多模态数据进行模型训练和评估。通过五折交叉验证、分层抽样等方法确保实验结果的可靠性和有效性,并使用多种统计指标如AUC、c指数等对模型性能进行量化评估。


图1  数据整理、模型开发与评估


结果与讨论



多模态任务表现优异

在BookSet和PathMMU数据集上,MUSK的图像与文本相互检索性能超越其他7种基础模型。于PathVQA数据集,MUSK准确率达73.2%,超过其他模型及专为该任务设计的K-PathVQA。在图像检索和分类任务里,无论是零样本还是少样本学习,MUSK在多个数据集上均优于其他基础模型。




生物标志物预测更准确

在预测乳腺癌受体状态和脑肿瘤IDH突变状态时,MUSK性能显著优于其他病理基础模型。




临床结果预测出色

基于VisioMel数据集,MUSK预测黑色素瘤复发风险的AUC达0.833,特异性表现更佳,还能揭示相关病理特征。利用TCGA数据,MUSK预测16种癌症的预后,平均c指数为0.747,能有效分层患者风险。在肺癌和胃食管癌免疫治疗队列中,MUSK预测客观缓解和无进展生存期的能力优于现有生物标志物和其他模型,还能分层患者风险并揭示相关病理特征。


图2  跨模态检索和视觉问答


图3  MUSK与最新幻灯片级基准任务的基础模型的病理学比较(a.生物标志物预测;b.免疫疗法响应预测;c.预后预测)


研究亮点



创新的模型架构与训练方法

开发了全新的视觉-语言基础模型MUSK,采用统一掩码建模和对比学习相结合的方法,有效整合病理图像和临床文本信息,为多模态数据处理提供了新的思路和方法。




强大的性能表现

在众多下游任务中,MUSK模型展现出优于现有基础模型的性能,特别是在预测临床结果方面具有显著优势,为精准肿瘤学的发展提供了有力的技术支持。




有效解决数据稀缺问题

通过利用大量未配对的图像和文本数据进行预训练,MUSK模型成功缓解了临床多模态数据标注稀缺的问题,为多模态AI模型的训练提供了一种可行的解决方案,具有重要的方法学创新意义。


文献来源

Xiang J, Wang X, Zhang X, et al. A vision-language foundation model for precision oncology. Nature. Published online January 8, 2025. doi:10.1038/s41586-024-08378-w

责任编辑:肿瘤资讯-DLF
排版编辑:肿瘤资讯-Z  Y

版权声明

本文仅供专业人士参看,文中内容仅代表智能肿瘤学立场与观点,不代表肿瘤资讯平台意见,且肿瘤资讯并不承担任何连带责任。若有任何侵权问题,请联系删除。

评论
03月17日
苗军程
金乡县人民医院 | 肿瘤内科
Nature:视觉-语言模型MUSK在精准肿瘤学中的突破与应用
03月17日
侯宪民
阳谷县人民医院 | 肿瘤内科
期待学习更多知识技能
03月16日
雷昕奕
永州市中心医院 | 胃肠外科
视觉语言模型在肿瘤学中的应用。