2023年11月15日,浙江大学公共卫生学院吴息凤院长团队在《Trends in Cancer》上发表题为“Big Data and Artificial Intelligence in Cancer Research”的综述。全面阐述了健康医疗大数据和人工智能技术在癌症研究中的应用并作出重要展望。
2020年全球新发癌症病例高达1929万例,给人类的生命健康带来了严重威胁。随着社会经济的转型和居民生活方式的变化,全球恶性肿瘤发病率逐年攀升,疾病负担不断增重,因此癌症防控显得刻不容缓。
肿瘤学领域正在经历大数据和人工智能(AI)应用的迅猛发展。人工智能的突破性发展使得跨尺度多模态数据的融合和分析成为可能。一个从庞大而复杂的大数据中提取信息的新时代正在迅速到来。然而,数据的高效获取、管理、辨析和利用仍然面临着众多挑战。在这一背景下,本文全面概述了大数据技术的现状,强调了其在癌症研究中的关键应用、面临的挑战以及未来的机遇。通过描绘当前的局势,作者呼吁促进肿瘤大数据的充分利用和发展,倡导跨学科合作,以助力改善癌症患者的预后和对癌症的深刻理解。
大数据和人工智能(AI)导论
在过去的几十年里,癌症的预防和靶向治疗在疾病防控方面取得了长足进展。然而,癌症类型的异质性和复杂性仍然带来了巨大的挑战。癌症异质性指的是单个肿瘤内或同一类型的不同肿瘤之间的遗传、分子和表型多样性,导致环境暴露反应、易感性、治疗反应和临床结局的个体差异。因此,必须采用精准医学的策略,而有效收集和利用大数据至关重要。
实验室技术的突破、基于人群的队列研究以及基于电子病历(EHR)的临床实践已经积累了大量各种类型的数据。在过去,从这些繁杂数据中提取有意义的信息十分困难。然而,随着人工智能的广泛应用,大数据和人工智能在我们与癌症的斗争中显示出卓越优势。
大数据和人工智能为彻底改变我们对癌症的理解带来了巨大的希望,从其起源到筛查、诊断、治疗、反应、毒性、复发和生存。人工智能已经被高度整合到癌症研究的许多方面,例如构建标准化大型数据集和生物样本库、鉴别可改变的危险因素、发现新的生物标志物或药物靶点、构建精准预测模型和知识图谱,以及搭建新的综合在线服务平台等。这都涉及到癌症大数据的有效收集和利用。然而,在数据协调、缺失数据处理和管理等领域仍然存在巨大挑战。
这篇综述旨在强调大数据和人工智能对癌症领域的变革性影响,概述在精准肿瘤学研究和临床实践中收集和利用大数据的框架,突出当前的挑战和解决方案,并回顾这些技术的应用,推动精准肿瘤学的进步。
大数据管理
数据管理通常涉及数据采集、质量控制和验证等步骤,以确保数据准确、完整和可靠,符合法律和道德要求。肿瘤大数据的来源广泛,包括流行病学问卷、电子医疗记录(EHR)、医学影像、生命组学和移动健康设备等。
流行病学问卷通常包括人口统计学数据、病史、生活方式、环境暴露、家族史和药物使用等信息。EHR则涵盖患者人口统计学信息、临床药物记录、检查结果、诊疗计划、账单数据和转诊情况等。医学影像数据包括MRI、CT和PET扫描等。生命组学数据包括基因组学、转录组学、蛋白质组学、微生物组学、代谢组学等,来源于不同组学技术的广泛数据集。移动健康设备数据则来自可穿戴设备和移动健康应用程序,可实时监测患者的生命体征、活动水平、症状,甚至治疗反应。肿瘤大数据的来源还包括慢性病监测、癌症筛查记录、常规体检和医疗保险等。
尽管这些数据的整合显著提高了风险预测模型的准确性,推动了癌症研究和临床实践的进步,但肿瘤大数据仍然面临着诸多挑战。其中包括数据协调、数据缺失、数据存储、数据安全与隐私等问题。数据协调方面的挑战主要源于数据源的异质性、格式不一致和数据质量的可变性。语义差异、时间变异性和伦理道德问题使这一过程更加复杂。数据缺失问题则由记录不完整、数据输入不一致以及纵向队列研究中的失访等因素引起。对于大量患者数据的汇总也加剧了对数据安全和隐私的担忧。为了应对这些挑战,作者提出了一系列解决方案,包括使用标准化协议统一数据、利用高级算法处理缺失、确保安全和合规的数据共享、实施版本控制、采用基于云的解决方案以及定期安全审计等。
多模态数据分析
(1)医学影像
大数据与人工智能的结合正在革新放射组学和数字病理学领域。深度学习算法在图像分析和模式识别方面表现出色,通常超越了人类的表现水平。影像组学采用先进的数学算法,如灰度共生矩阵、基于直方图的特征和支持向量机,对MRI、CT和PET扫描等高维特征进行定量分析,包括图像采集、预处理、分割、特征提取以及模型验证等步骤。这些算法能够识别和量化图像中的各种纹理、基于形状和基于强度的特征,从而全面了解肿瘤的异质性、严重程度和其他临床相关特征。数字病理学是肿瘤诊断的“黄金标准”,而人工智能增强的数字病理学通过对标本进行数字捕获和全面分析,改进了诊断过程,也减轻了病理学家的工作负担。人工智能与放射组学和数字病理学的融合正在带来协同效应,为提高肿瘤学诊断的准确性和效率带来广阔前景。
(2)数据融合分析
多尺度、多模态的高维数据通过数据融合分析得以充分利用。图1展示了常见的机器学习模型和融合策略。例如,IRENE模型使用嵌入层将图像、非结构化文本和结构化临床数据转换为视觉和文本标记,然后通过具有模态内和模态间注意力的双向块学习整体表征,在肺部疾病识别和结果预测方面优于传统和纯图像模型。另一方面,基于深度学习的模型整合了组织病理学图像与基因表达谱,其表现优于单一数据模型。
(3)知识图谱
知识图谱整合了多个数据源,提供基因、蛋白质和患者结局等实体的全面视图,为个体健康状况提供可导航的快照。例如,REMAP是一种多模态机器学习方法,用于从结构化知识图和非结构化文本中提取疾病关系。通过对齐多模态数据源,该方法提高了准确性和F1分数,对比基于图的方法在发现疾病关系方面更为优越。采用基于结构、类别和描述嵌入的反向超平面投影算法构建的多模态推理模型,证明了嵌入模型在生物分子相互作用分类中的多功能性。
图1.常见的机器学习模型和融合策略
(4)多生命组学联合分析
不同生命组学的数据可以在分析过程中进行联合,但由于数据类型的异构性和高维度,需要大量的计算资源和专门的算法进行处理。图2展示了多组学分析的框架。利用弱监督深度学习模型,整合多生命组学与组织病理学的分析策略可以更好地探索组织病理学图像与遗传因素之间的联系。机器学习算法也可以发现微生物组中与不同类型癌症相关的特定模式或生物标志物。整合单核RNA测序和空间转录组学可以揭示癌症组织复杂的细胞结构,从而发现潜在的治疗策略。在综合分析方法中,整合循环游离细胞DNA基因组特征可以增强癌症早期诊断和最小残留疾病的检测。
图2. 多组学分析与应用框架
(5)EHR分析
自然语言处理(NLP)技术有助于从EHR、医学文献和临床笔记中提取和解释非结构化文本数据。例如,PheCAP是一个半监督系统,利用NLP从EHR中提取有价值的信息,加速表型检测并增强医疗决策。缺失多视图知识图谱整合算法(MIKGI)将来自医疗代码共生模式的嵌入和来自文本字符串的语义嵌入相结合,并将它们合成为统一的语义向量,从而在检测相似或相关实体对和跨机构映射医疗代码等任务中达到较高精度。联邦学习已成为在融合模型开发中维护数据隐私的关键解决方案,使机构能够在不集中患者级数据的情况下训练本地模型,不仅确保数据安全,还提高了模型性能,促进了跨机构研究。
整合的大数据平台
为了整合癌症大数据,大型队列、队列联盟和组学数据库已经成为目前一些卓越的解决方案。例如,弗莱明汉心脏病研究、英国生物样本库等大规模队列研究被认为是获取高标准、高质量、跨尺度、多模态大数据和生物样本的最佳途径。这些研究不仅收集了问卷、生物标志物、临床和表型数据等基线数据,还进行了长期的随访。全球范围内,越来越多的国家投资于建设队列,以识别癌症的可改变风险因素和新型生物标志物,制定癌症筛查、诊断、治疗和管理的个性化策略,建立智能服务平台。癌症基因组图谱等大型数据库也为精准医学提供了支持,在分子水平上推动了我们对癌症的深入理解。
大数据和人工智能在癌症研究中的成功应用
(1)可改变风险因素辨析
癌症的发展与一系列可改变的风险因素密切相关。整合和分析不同的数据集提供了揭示可改变风险因素之间复杂相互作用所需的统计能力和稳健性。例如,通过机器学习算法,研究人员能够构建衰老生物标志物,并探索它们对癌症易感性的影响。在基于英国生物样本库的研究中,研究人员证实了可自由支配的屏幕时间、地中海生活方式、身体活动、综合健康生活方式评分以及其他因素与癌症易感性的关联。这些发现来源于广泛的队列研究,阐明了可改变危险因素对癌症的巨大影响。
(2)生物标志物发现
易感性生物标志物:通过基因图谱识别出某些疾病风险较高的个体,使医生能够在早期实施个性化的预防措施,减轻总体疾病负担。全基因组关联研究(GWAS)为识别与肿瘤相关的遗传风险因素提供了一种新的方法。建立多基因评分模型,计算癌症多基因风险评分,可以提高对遗传性疾病的预测水平。
诊断和预后生物标志物:诊断和预后生物标志物可以是提示癌症存在的分子、组织学、放射学或生理学特征,在癌症的预防和诊断中至关重要。RNA测序和甲基化有助于识别各种类型癌症的新生物标志物。成像技术的进步也在这些生物标志物的发现中发挥了重要作用。鉴定特定的肠道微生物组特征,可以预测癌症和癌症,帮助医生在早期发现癌症,从而提高治疗成功率。通过结合放射科医生、病理因素、成像指标和机器学习技术,可以实现更高的诊断准确性,极大地有利于患者健康管理。
药物发现和再利用:人工智能正在克服虚拟筛选和分子对接等传统技术的局限性,特别是在改善药物-靶点相互作用、基于结构的虚拟筛选和毒性表征方面。人工智能算法可以预测异构网络中的新药相互作用。深度生成模型在设计具有良好药代动力学的抑制特定受体的分子方面显示出前景。人工智能在简化药物-靶点相互作用预测、扩大药物重复使用和联合治疗方面也发挥了重要作用。
治疗反应和不良事件的生物标志物:预测性生物标志物是一种用于预测特定治疗干预结果的工具,包括化疗、放疗和免疫疗法的治疗获益和可能的副作用。用适当的生物标志物评估肿瘤微环境,可以确定在特定患者群体中使用的最佳治疗方法并预测耐药性。分析肿瘤组织样本、基因表达、肠道微生物组特征和非侵入性血浆衍生生物标志物,可以提供肿瘤生物学信息,以评估癌症患者对免疫疗法的反应。
药物剂量调整:通过整合患者特定因素,如年龄、体重、遗传和肾肝功能,描述药物在不同患者组中的吸收、分布、代谢和消除方式,可以开发药代动力学模型,以指导计算适合每个患者的最佳药物或辐射剂量。
医学影像学:人工智能在放射组学图像分析中的应用取得了突出进展。已经为腺体分割和肿瘤分类等任务打造了一系列机器学习模型,证明了显著的检测和分级准确性。
(3)风险预测建模
健康风险分层:深度学习模型在风险预测方面的应用日益增多,旨在提供更准确的癌症风险评分,从而实现更个性化、精准的癌症风险分层。机器学习方法已成功用于从胸部X光和MRI等不同模态的数据中预测癌症风险,并有一些模型致力于提升其可解释性,如通过热图显示癌症最可能发展的区域。
治疗反应预测模型:对于选择适当治疗方法和避免不必要手术的临床决策而言,准确的反应预测具有重要的临床意义。最新的研究应用深度学习模型于成对超声图像,以预测癌症对新辅助化疗的反应,为临床提供了有力的证据支持。
复发模型:估计复发是癌症分期和治疗计划中的核心需求。当前的模型综合考虑了各种临床参数,如年龄、性别、癌症分期、遗传改变、循环分子标记物和多种组织学风险因素。然而,更高层次的特征,如淋巴细胞的空间排列和染色质结构,也携带着关键的预后信息。卷积神经网络模型运用PET/CT数据成功预测局部肿瘤复发,显示出比传统模型更为出色的预测性能。
生存模型:生存预测模型在癌症预后中扮演着重要的角色,帮助临床医生评估患者预后,制定个性化的干预方案。人工智能为其提供了一种潜在的替代方案,有望更有效地利用患者数据,估计其生存能力和生存时间。
(4)肿瘤防诊治综合在线服务平台搭建
面对来自不同癌症系统和数据平台的肿瘤数据,作者提出打造一个综合在线服务平台,涵盖了数据采集、AI健康助手、风险评估、健康画像、筛查方案推荐、物联网设备接入等主要模块。该平台通过移动设备和便携式数据采集设备,实现全天候的数据收集,包括人群的一般流行病学信息、体征信息、自我健康检查与症状反馈以及其他新型暴露数据。平台内嵌可用于癌症筛查、诊断、治疗、复发和生存的风险预测模型,通过在线云计算平台实时计算。这包括对各类数据的融合分析、影像自动切割与辅助诊断、在线实时预测建模、肿瘤风险评估等功能,最终生成个人个性化的健康管理方案。此外,平台还实现了对异常指征的主动提醒和预警,并协助预约体检筛查。为提高医生的患者护理效率,平台采用自动化流程,同时帮助患者提高自我管理能力,与健康管理和成本控制目标保持一致。其可扩展性使得平台能够支持临床决策系统和管理其他疾病,为未来的健康管理工作奠定坚实的基础。该平台不仅满足当前癌症防诊治需求,同时为更广泛的健康管理提供了前瞻性的解决方案。
图3. 基于人工智能(AI)辅助的平台
结论
借助大型人群队列、广泛的数据库和庞大的样本库,将生物技术与信息技术深度融合,成功突破了健康医疗大数据融合辨析中的跨尺度、多模态难题。这为癌症肿瘤筛查、诊断、治疗乃至药物研发提供了前所未有的机遇。然而,这一创新也伴随着一系列挑战,其中包括数据安全、算法的可解释性、数据质量控制和隐私保护等方面的问题。要克服这些挑战,需要进行流行病学、临床医学、数据科学和政策制定等多学科的协同合作。尽管面临种种挑战,将大数据和人工智能整合到肿瘤研究中带来了巨大的变革潜力。通过持续关注创新,我们有望实现更为精确、高效和个性化的癌症发现、诊断和治疗策略,最终改善患者的预后,减轻疾病负担。这种前景展示了科学家、医生和决策者共同努力的成果,为提升癌症防治水平开辟了崭新的道路。
浙江大学公共卫生学院李文渊研究员及涂华康教授为共同作者。李文渊研究员,博士毕业于美国哈佛大学,从事人工智能驱动的环境健康及医学影像研究。涂华康教授,博士毕业于美国埃默里大学,从事基于电子病历的肿瘤真实世界大数据研究。
扫码阅读全文
Wu X #, Li W, Tu H. Big data and artificial intelligence in cancer research. Trends Cancer. 2023 Nov 15:S2405-8033(23)00217-0. doi: 10.1016/j.trecan.2023.10.006. PMID: 37977902.
通讯作者简介
吴息凤,国家级特聘专家、长江学者讲席教授,浙江省“鲲鹏计划”顶尖人才。浙江大学公共卫生学院院长、浙江大学医学院附属第二医院副院长、浙江大学陈廷骅大健康学院执行院长、浙江大学健康医疗大数据国家研究院院长、浙江大学医疗保障大数据和政策研究中心主任。研究横跨遗传学、健康医疗大数据、流行病学、精准医学等领域,包括基于大型人群队列的健康医疗大数据和生物样本库构建、可改变风险因素辨析、新型生物标志物挖掘、精准风险预测与医学人工智能应用等。发表论著920余篇,包括柳叶刀、新英格兰医学杂志、美国医学学会杂志、自然、英国医学杂志等顶级期刊,H指数108,累计被引47106次,单篇最高引用2387次(Lancet,2011)。曾获MD安德森癌症中心从教学到科研到预防的最高奖,以及“休斯顿市50位最具影响力女性奖”等荣誉,担任十多个国家/国际的评审委员会委员及顾问。
排版编辑:肿瘤资讯-Astrid