首页 > 文章详情

肿瘤学中人工智能的应用与局限

2024年04月02日

w编译：肿瘤资讯

现代基于高维度患者数据的人工智能（AI）工具正在重塑肿瘤学护理，帮助改善目标一致的护理，降低癌症死亡率，并提高工作流程的效率和护理范围。然而，数据相关问题和在算法开发及部署阶段中潜入的人类偏见影响了AI技术在现实世界环境中的表现，限制了AI技术在肿瘤学诊所的实用性和安全性。为此，作者回顾了预测性AI在癌症诊断和预后方面的当前潜力和局限性，以及生成性AI（特别是现代聊天机器人），这些AI与患者和临床医生进行交互。他们以三个用例为背景，讨论了AI在癌症护理交付中的应用，并总结了该领域的持续挑战和监管机会。（AI翻译，仅供参考）

背景

在过去的32年中，肿瘤学的创新已经导致了癌症死亡率下降了33%。与此同时，精准医学技术的出现——其中一些基于人工智能（AI）——使得肿瘤学临床医生能够更好地识别放射学扫描中以前未被注意到的模式，预测疾病进展，提供定制化治疗，并建议患者参加临床试验。临床AI技术开创了更有效的筛查、优化的治疗方案和改善的患者结果，标志着癌症护理交付方式的重大进步。

人工智能描述了为解决问题而创建的数据驱动、自我运作的算法。AI的两个关键术语是机器学习（ML）和深度学习（DL）。机器学习是AI的一个子集，指算法自动从数据中学习和适应，而无需明确编程。深度学习是ML内的一个特殊群体，通过使用多层算法网络处理数据中的信息来模仿人类大脑。

AI算法分为两类：预测性AI和生成性AI。预测性AI工具从训练数据中学习模式，以预测新场景中的结果。例如，用于从乳腺X线照片中诊断乳腺癌的基于图像的分类工具就是一种预测性工具。生成性AI创建了训练数据中未明确存在的新颖输出。与患者进行交流的AI聊天机器人是一种生成性AI的形式。
尽管已经发表了无数关于AI算法用于癌症护理管理的变体，但只有少数被临床实施。实施中的障碍包括有限的食品药品监督管理局（FDA）监管指南、将AI整合到临床工作流程中的高前期成本、算法的不可解释性以及对算法部署后监测的限制。在2021年FDA批准的71个与AI相关的设备中，大多数是癌症诊断（>80%）并涵盖了癌症放射学（54.9%）、病理学（19.7%）和放射肿瘤学（8.5%）领域。这些设备应用于实体恶性肿瘤，最常针对乳腺癌（31%）和肺/前列腺癌（8.5%）。

诊断

早期癌症和治疗后复发的癌症在放射学和病理学报告中难以诊断，这在临床表现稳定的患者中尤为突出。经过成千上万张正常和癌变病变图像训练的机器学习算法能够学会区分这两组，有助于发现人类肉眼难以察觉的微妙病理变化。常用的AI算法是卷积神经网络（CNN），这是一种深度学习架构，用于从数据中提取识别特征，并使用生成的模式进行新的分类任务。算法为每个输出类别分配一个概率，并将图像分类到分配最高概率的组。AI工具的准确性是通过将算法分类与临床医生分类（称为“真实情况”）进行比较来衡量的。

肿瘤学中的诊断性AI可以提供高准确性的早期检测，提高护理效率，并可跨医疗系统扩展。受益于AI技术自动化诊断的两种癌症类型是皮肤癌和乳腺癌。早期关于皮肤癌自动诊断的工作为AI用于癌症诊断的设计和使用奠定了基础。成年人中常见的皮肤病变中，有些如黑色素瘤可能是恶性的。黑色素瘤仅占皮肤癌诊断的5%，但如果在转移阶段才被发现，其5年生存率仅为32%，而早期发现时为99%。区分早期黑色素瘤和外观相似的良性皮肤病变在视觉上是困难的，经常导致误诊或延迟诊断。这种临床情况是AI技术帮助识别病理和良性状态之间细微变异的典型例子，使临床医生能够更准确地诊断并为患者提供更早的治疗干预。

2017年的一项概念验证研究使用了一种深度学习算法来区分恶性黑色素瘤、良性痣和非肿瘤性病变，这是建立AI工具用于癌症诊断能力的首次重要工作。一个CNN在129,450张经活检证实的照片图像上进行了训练，并与21名认证皮肤科医生的表现进行了比较。该算法在测试集上的总体分类准确率与两名皮肤科医生的表现相当（72.1%对比66.0%和65.6%）。这项诊断辅助的性能和可扩展性是其承诺的关键。黑色素瘤的诊断通常是通过亲自目视检查皮肤病变并进行活检程序来获得的。与皮肤科医生的诊断准确性和速率相匹配的AI工具，无需侵入性程序或诊所访问，可以将癌症护理的范围扩展到医疗资源有限和/或难以获得医疗照顾的地区。这些算法还可以从现成的移动图像中分类皮肤病变，表现与专家和新手医生相当，正如最近的一项多中心、前瞻性试验所示，进一步消除了初步筛查需要诊所访问的需要。

乳腺癌筛查是另一个AI诊断辅助工具在早期识别疾病过程中有益的临床背景。随着放射学设备和公共宣传的改进，筛查工作在过去几十年中不断发展，自1989年以来帮助乳腺癌死亡率降低了43%以上。在大多数环境中，乳腺X线照片筛查经历两位临床医生的独立评估，他们的结果是结合的。只有当出现分歧时才会请第三位读者。尽管最近有所进步，但缺乏可用的筛查资源和放射科医生可能会限制乳腺癌筛查在扫描解释方面的发展。此外，放射科医生对乳腺X线照片结果的诊断解释中的人为错误和变异性是一个巨大的挑战。在一项对359名放射科医生进行的研究中，他们调查了超过160万张乳腺X线照片，发现41%的人未能一致地达到标准召回率。AI算法通过减轻对第二位读者的需求和提高扫描中检测病变的效率来减轻筛查的负担。

基于深度学习框架构建的计算机辅助检测（CAD）算法在成像扫描上识别出放射科医生需要复查的可疑区域，并已被证明在协助乳腺X线照片解释方面表现不一，同时也减少了医生的工作量。一项对三个商业测试的AI CAD算法进行的外部验证研究在8805名女性中筛查乳腺癌，发现只有一个算法达到了与美国乳腺癌监测联盟基准相一致的敏感性和特异性指标。表现最好的算法的准确率为95.6%，超过了其他两个平均得分为92.1%的算法。当这个算法与第一位读者的评估结合时，癌症检测率提高了8%。在这项研究中，AI和人类的合作超过了单独使用AI和双读者解释的准确性。2020年发表的DM DREAM研究进一步证实，与单独放射科医生解释相比，AI和临床医生的合作改善了乳腺癌筛查资源分配的决策。在DM DREAM研究中，一系列AI算法与单一放射科医生评估的合作被测试，结果显示结合专业知识导致了更高的乳腺X线照片解释准确性和召回率的1.5%绝对减少。

AI在解释乳腺X线照片方面的帮助，除了提高诊断准确性外，还可以减少临床医生的工作量，从而改善医生的结果并为更多的患者互动保留时间。这在一项回顾性研究中得到了证明，该研究涉及275,000个乳腺癌病例，报告称与人类放射科医生的表现相匹配的AI软件作为乳腺X线照片的第二位读者，可以通过至少减少放射科医生工作量的30%来简化乳腺癌的诊断。

除了算法开发和读者研究之外，在前瞻性临床试验中验证AI诊断工具的性能对于评估其在现实世界环境中的有效整合和安全性至关重要。在瑞典进行的人工智能支持的乳腺筛查（MASAI）研究是第一个随机对照试验，评估AI CAD工具如何安全地整合到临床工作流程中。在这项前瞻性、非劣效性、单盲研究中，使用AI CAD对乳腺X线照片解释进行分类，选择单个或双读设置。CAD分类分数较高的扫描优先进行双读者评估。癌症检测率增加了20%，总体工作量减少了近一半，为将AI工具用于乳腺癌筛查整合到临床工作流程中提供了基于证据的框架。

AI算法在图像分类方面的益处对于癌症诊断是显而易见的。在许多情况下，该技术可以像临床医生一样准确地检测患者是否有癌性病变，减少医生的工作量，提供非侵入性诊断替代方案，并增加医疗照顾的可及性。然而，也存在算法可能失败的重要情况，这引发了关于偏见、公平性和稳健性的关键问题。图像采集的漏报、欠代表性和异质性可能会使用于训练AI算法的数据产生偏差。结果，算法不能泛化到在训练数据集中没有得到充分代表的患者群体。例如，在皮肤癌的情况下，AI算法对深色皮肤的人士表现较差的风险更高。许多已发表的AI算法是在有偏见的公开可用图像数据集上训练的。对21个可访问的皮肤病变数据集的调查涵盖了超过100,000张图片，揭示了深色皮肤病变的欠代表性。在2436张标明皮肤颜色的图片中，只有11张是棕色或黑色皮肤；在附有种族信息的1585张图片中，没有一张来自非洲、非洲加勒比或南亚背景的人。通过修改算法开发流程，可以帮助缓解这些问题。训练数据可以扩展，包括来自所有人群（例如皮肤颜色、年龄和体型）的代表性图像。带有图像数据的训练集应包括从不同角度、照明和设备拍摄的样本；AI技术应适应图像采集技术的变化，通过用新图像重新训练模型。

现代图像分类是一个“大数据”问题，因为每张图像中的高分辨率像素可以提取信息，乘以训练算法所需的大量图像。AI模型可以检测到复杂数据形式之间的关联，这些关联在标准回归模型中通常是不明显的。然而，高性能的“黑箱”AI算法的权衡是缺乏其预测生成机制的可解释性。AI模型可能会推断出数据特征和结果标签之间的虚假规则，导致误导性、不可推广和/或有偏见的结论。例如，研究人员在SARS-CoV-2患者的胸部X光片上训练深度学习算法来区分疾病和非疾病状态。他们表明，这些模型在外部验证数据集上泛化得并不好。应用常见的模型可解释性策略揭示了，尽管在预测生成中考虑了像肺病理学这样的机制性标记，但模型也依赖于与图像采集和训练数据集特定的嘈杂“捷径”，如侧性标记和图像注释。为此，对不同于训练数据的癌症AI基于图像的诊断进行外部验证，并利用统计方法来解码模型可解释性，将确保可信赖的AI模型能够泛化到不同的测试场景中。

最后，需要进行临床试验和验证研究，调查将开发的算法整合到临床工作流程中作为诊断扫描的潜在第二位或第三位读者的性能，以衡量其在现实世界环境中的可靠性，并指导广泛采用。

预后分析

预测患者结果有助于定制医疗计划并优化肿瘤学中的资源分配。然而，对于肿瘤学家来说，预测预后是一个挑战，估计有63%的医生高估了患者的生存期，而17%的医生低估了生存期。一个原因是医生依赖于临床先例和国家公布的人口统计数据（例如，5年中位生存期）来评估单个患者，这导致过度概括和对风险的不准确评估。在肿瘤学中不准确预测的后果包括增加患者及其照顾者的情感负担、不适当的资源分配、患者与医生关系的信任减少，以及在关键治疗或生命终结干预中的延迟。基于AI的风险预测模型可以生成个体化的生存估计，增强临床医生对风险的评估，并帮助肿瘤学中的个性化护理决策。

虽然诊断模型评估患者是否患有疾病，但预后模型关注的是患者是否会发展出疾病或不良结果（例如，住院或死亡）。预后AI算法是用非结构化数据（如电子健康记录（EHR）中的临床笔记、放射学报告和病理学发现）以及结构化数据（如患者人口统计学、实验室结果和患者报告的结果（PROs）调查）构建的。EHR数据的好处包括为每个患者提供深度和广度的信息、频繁的纵向数据收集机会以及持续的结果跟踪。在肿瘤学中，由此产生的预测通常用于沿风险连续体对患者进行分层，“高风险”患者（超过风险阈值的患者）有资格接受额外的干预措施。

一个临床场景，其中预后AI模型有助于优化目标一致的护理和医疗支出，是为晚期癌症患者优先考虑生命终结护理。例如，基于EHR的机器学习算法计算了180天的死亡风险，以高精度（准确度：0.95-0.96）识别出了案例，在结果的4%患病率中，并提供了个体化的、数据驱动的替代方案，用于标准的预后模型和从先前的随机对照试验中得出的决策制定框架。该算法在现实世界的环境中很好地推广到了一项前瞻性试验中，在该试验中，它与行为健康干预配对，为高风险的晚期癌症患者促进了严重疾病对话（SICs）。实施导致记录的严重疾病对话患者遭遇增加了11%，并降低了生命终结支出，平均每日减少75.33美元。该算法对生命终结护理和SIC率的影响在大型医疗系统中持续存在，超出了试验设置。

我们使用上述的死亡预测算法作为案例研究，以说明预后AI模型在增强肿瘤学中风险评估和临床决策制定的潜力。由于该算法是在单一机构的患者数据上训练并应用的，很难确定它在不同卫生系统中的表现如何。模型性能在不同测试场景（例如，患者亚群体、地理位置和时间）中的异质性提出了关于算法公平性和可靠性的必要问题，以及预后AI模型在肿瘤学中的长期安全性。

跨患者亚群体（例如，种族或性别）的模型性能平等确保了算法公平性，并促进了干预措施的公平分配。然而，风险预测算法可能会传播现有的社会偏见，表现为对受保护患者群体的预测准确性较低。导致偏见模型的两个主要因素包括对医疗资源不足的患者群体的培训数据有限，以及在模型中使用不当的代理变量，这些变量粗略地代表了真正的风险机制。一项突出的2019年研究表明，一个广泛使用的风险预测算法预测了医疗成本，这是医疗状况和健康社会决定因素的函数，为与白人患者有相似健康概况的黑人患者提供了服务。预测慢性病数量反而增加了有资格获得额外健康干预措施的黑人患者的百分比28.8%。

数据的误代表需要仔细考虑模型输入。在风险预测模型中包括社会定义的特征，如种族和民族，已被证明在临床上是相关的，但在社会上是有争议的。在一项研究中，四个预测结直肠癌患者术后癌症复发的风险模型显示，包括种族和民族变量可以减少种族偏见指标，并沿着几个模型性能指标增加算法公平性。尽管有些社会定义的变量在这种设置中强烈预测风险，并可以促进公平的资源分配，但依赖这些预测因子掩盖了真正的难以获得或未被考虑的驱动因素（例如，社会经济地位，与疾病风险相关的生物标志物）。包括像种族这样的变量也可能固化对受保护患者亚群体的歧视性概括，扩大了获得高质量癌症护理的差距。

模型性能随时间的恶化，即模型性能的漂移，影响了部署后风险预测的可靠性。大多数在肿瘤学环境中部署的模型本质上是确定性的，如果没有与算法更新相匹配的数据生成过程的变化可能导致不可靠的预测。在临床风险模型中，通常确定的漂移原因包括EHR软件和文档实践的变化以及医疗保健实践模式的变化。最近一项关于上述6个月死亡预测模型漂移的研究发现，在COVID-19大流行期间，真正的阳性率下降了7%，这一下降与隔离期间实验室使用率的下降有关。持续监测和间歇性更新模型对于减轻漂移相关对护理决策和资源分配的负面影响至关重要。

AI模型在训练、部署前阶段的数据质量也影响预后AI工具在现实世界环境中的表现。一些EHR数据形式是不完整的、非结构化的、容易受到人为记录错误的影响，并且在卫生系统之间没有标准化。这些问题在其他患者数据形式中也有所体现，这些数据形式对于风险预测变得越来越普遍，如PROs和移动数据，其额外的成本是在它们的纵向收集中嘈杂和不精确的测量。需要强大的数据预处理、错误纠正和标准化程序以及数据共享标准来增强AI的性能。

CHATBOTS

当我们撰写这篇综述时，现代对话型聊天机器人正在医疗保健领域掀起波澜。聊天机器人是生成类似人类语言的计算机程序。现代聊天机器人的基础学习架构从预测性自然语言处理和语音识别软件发展到生成性大型语言模型（LLMs），这些模型处理大型基于文本的数据集以翻译、预测和制作内容。对于患者来说，LLM聊天机器人提供了支持患者教育、患者-临床医生沟通和心理健康服务的功能。对于医生来说，LLMs有潜力编码临床知识、自动化医疗文档（例如知情同意）、增强远程医疗互动并协助临床试验招募。

最近关于使用LLMs进行癌症护理管理的研究揭示了这项技术在提供信息的质量和准确性方面仍存在局限性。一项回顾性、横断面研究评估了OpenAI的商业LLM，ChatGPT，是否根据国家综合癌症网络（NCCN）的标准护理指南为乳腺癌、前列腺癌和肺癌治疗提供建议。研究团队发现，大约三分之一的聊天机器人的治疗建议与NCCN指南不完全一致。建议随着问题的措辞而变化，聊天机器人和指南之间的差异通常归因于不可解释的回应，这表明在使用LLM聊天机器人提供治疗信息时需要谨慎。
在一项相关研究中，研究人员比较了ChatGPT v3.5、Perplexity、Chatsonic和Bing AI提供的关于五种常见癌症（即肺癌、皮肤癌、结直肠癌、乳腺癌、前列腺癌）的顶级Google搜索查询的信息质量。尽管回应的质量很高，中位DISCERN得分为5，但它们难以理解，具有大学水平的可读性，并且不易立即采取行动。聊天机器人和其他生成性AI技术在医学上仍处于起步阶段，准确性、可读性和可靠性方面存在局限性。商业聊天机器人，如ChatGPT，是在互联网上发现的广泛文本数据上进行训练的，对信息的有效性进行了有限的质量检查。此外，LLMs是一个“黑箱”，其最小的可解释性，即理解和解释算法如何得出其预测的能力，仍然是一个重大挑战。LLMs不能识别用于生成文本的来源或确切的训练数据。因此，LLMs可能会传播错误信息，导致用户（即患者和医生）之间的混乱和不信任。AI幻觉，即基于错误信息的提示生成不准确信息，是另一个不信任的来源。

医学中采用聊天机器人依赖于实现既可理解的语言，又能准确传达复杂的医学主题，而当前的算法无法始终如一地做到这一点，因为可读性得分随着用户提示的措辞而变化。尽管医学知识每天都在扩展，但算法并没有不断更新以适应这一变化。因此，未在更新信息上训练的聊天机器人可能随着时间的推移变得不可靠和更不准确。

生成性AI技术领域正在迅速发展，我们预计其在肿瘤学中的应用将平行扩展。需要更好地规范医疗保健聊天机器人，以优先考虑患者安全和隐私。虽然可以在诊所更好地监管聊天机器人的使用，但监督患者自主寻求医疗知识时私下使用聊天机器人却更加困难。意识到这一问题的肿瘤学临床医生可以指导他们的患者了解聊天机器人得出的医疗信息。

讨论

艾伦·图灵在1950年提出的问题“机器能思考吗？”在他的挑衅性作品《计算机器与智能》中为一个新的领域——人工智能奠定了概念基础。图灵的思想实验导致了早期AI机器人系统的创建，这些系统模仿人类决策，包括假肢“触手臂”和工业装配线机器人。到了21世纪初，随着AI架构的改进使其更适合高风险医疗环境，AI的应用范围扩大，从而增强了临床医生的决策制定，从而重塑了癌症护理管理的格局。

AI提供了无尽的潜力，通过实现早期诊断、提供更精确的风险估计、指导有效的治疗方案，并释放医生时间以便更专注于患者互动，将癌症护理推向新的前沿。这篇综述仅触及了AI系统在肿瘤学中潜力的表面。我们在此处未涉及但同样重要的是AI在医学和流行病学中的应用案例，包括AI在临床试验招募中的应用，以及疾病发展和进展、癌症基因组学和遗传突变、数字健康和移动疾病监测状况、以及人口层面风险因素的研究。

AI算法的好坏取决于它们所接受的数据和假设。训练数据集中对患者群体和医疗场景的偏见表示可能导致数据过拟合和对AI工具在现实世界中的不准确概括。数据集转移，即现实世界数据分布与训练集的偏离，可能导致AI性能随时间漂移，降低其输出的可靠性。确保训练、评估和部署后监测阶段的多样化、代表性数据至关重要。

除了训练数据中固有的偏见外，人类偏见还可能影响临床医生如何使用AI算法。在2019年对韩国医生的一项调查中，83.4%的医生认为AI在医学中的应用是有用的，特别是对于医学诊断，但只有5.9%的医生熟悉AI，29.3%的医生承认由于信息不足，AI在意外情况下无法提供帮助。医生的专业技能、技术素养和年龄等因素影响了这些技术的采用。医生对使用AI工具的犹豫可能源于算法生成预测的可解释性缺失、未分配的医疗责任和经济成本，以及对AI工具的不熟悉。当前关于解码可解释性的方法论工作涉及将统计分数归因于输入变量，以确定每个模型输入对生成预测的贡献。解码变量重要性可以帮助用户对输出产生信心，并使这些工具更好地整合到临床工作流程中。另一方面，自动化偏见，即过度依赖AI做出临床决策，可能会忽略对患者自身的临床直觉，同样会阻碍AI在癌症护理交付中的适当使用。假阴性和假阳性病例可能会被自动化偏见忽视，这可能导致医疗决策的错误信息。

AI系统无法完美复制临床医生的决策制定，因为患者的情绪状态、认知状态和临床状态等变量并没有在数据中被坚决捕捉到，但这些变量在评估患者风险时至关重要。将患者报告的结果（PROs）扩展到预测性AI模型中，这些结果可以持续捕捉临床外的症状和功能状态，可以提高模型的准确性和临床相关性。一项研究报告称，在一个死亡率预测模型中，使用患者报告的结果（PRO）和EHR数据进行训练，相比于仅使用EHR数据，模型的曲线下面积增加了4%。交互式AI框架，如人类在循环模型或人类-机器协作模型，这些模型结合了来自临床医生的实时反馈和洞察，可以提高预测的准确性和信心，确保在医疗保健环境中对风险评估和决策制定采取更全面的方法。

随着更多的AI算法被开发和实施到诊所中，调整肿瘤学临床工作流程以适应它们取决于明确的监管监督。采取措施保护患者隐私、标准化数据收集和维护算法可靠性将确保AI的负责任使用。对于像基于LLM的聊天机器人这样的生成性技术，需要额外关注硬件要求、持续监测和限制使用情况。在当今AI和肿瘤学融合的时代，创新和责任之间的平衡将把癌症护理交付提升到新的高度，从而使患者、医生和医疗保健系统受益。

参考文献

[1]Kolla L, Parikh RB. Uses and limitations of artificial intelligence for oncology. Cancer. 2024 Mar 30. doi: 10.1002/cncr.35307. Epub ahead of print.

责任编辑：肿瘤资讯-JRN
排版编辑：肿瘤资讯-JRN