首页 > 文章详情

人工智能在肿瘤介入领域的未来

2023年12月26日

来源：星火介入医学声

人工智能（AI）已显示出增强临床决策的巨大潜力，其模型能够识别数据中复杂的潜在关系。在图像引导的微创介入治疗中，人工智能可能能够快速解释多模态影像数据和临床数据，以提供个性化的临床支持。尽管介入肿瘤学（IO）领域正在迅速发展，但人工智能的临床应用却受到限制。在 IO 中采用 AI 有可能显著改善患者的诊断、治疗和管理。

人工智能在肿瘤介入中的应用现状

01 患者识别和诊断

人工智能技术在患者识别和诊断方面得到了突出发展。2影像组学是一种越来越普遍的癌症检测方法，是一种通过肉眼看不见的图像特征来评估病变的方法。3人工智能在检测和分类病变方面表现出了近乎医生的能力，当这些工具与介入科医生一起使用时，性能会提高。2人工智能驱动的算法也可能影响临床医生确定肿瘤严重程度的方式。通过先进的放射组学，人工智能在肝细胞癌肿瘤分类和乳腺病变恶性肿瘤评估方面表现出色。这种人工智能评估方法可以消除对过度侵入性活检的需要，并降低患者的医疗保健成本。2与大多数人工智能任务一样，这些决策模型需要大量代表目标人群的数据。为了适当地融入临床实践和治疗，必须制定产生代表性模型的机构协议，以保护患者并防止医疗保健不平等的加剧。

02 患者选择

与现有的治疗算法和分期系统相比，人工智能模型在患者选择和反应预测方面取得了显着的性能。5-8传统系统依赖于少量临床、实验室和定性影像学特征，这限制了患者特征的可能范围。然而，人工智能模型利用患者的所有数据来提供更个性化的分期。模型在预测对经动脉化疗栓塞术和肿瘤消融术等手术的反应方面显示出强大的结果。5,9这些算法可用于识别可能适合某些手术的患者，并提供个性化的治疗计划。

03 术中指导

人工智能可能能够在肿瘤介入手术过程中直接提供引导，尽管描述此类方法的文献有限。建议的应用是将术中造影图像与术前诊断图像融合，为实时肿瘤介入导航提供多模态方法。10,11理论模型还可以实时分析手术方法与治疗效果之间的关系，提供术中指导以优化患者预后。这些模型可能有助于引导导管走向、消融、探头放置和其他 IO 技术。例如，一些研究已经训练了卷积神经网络来改善穿刺。12,13这些发现表明，人工智能可能有许多未开发的应用，特别是与肿瘤介入相关。

04 大型语言模型的创新

自然语言处理领域最近取得了重大发展，ChatGPT （OpenAI）和 Bard （Google）等聊天机器人在公共领域变得流行起来。GPT-4 （OpenAI）和 Med-PaLM 2 （Google）在美国医疗执照考试中的表现超过 80%的医生，引发了对其潜在临床应用的讨论。15,16对于肿瘤介入，大型语言模型（LLM）可能有助于对患者进行术前介入手术教育，从而产生针对患者的解释。17此外，这些可以作为临床医生的医疗决策工具:大语言模型在乳腺肿瘤委员会的建议中产生了接近医生的建议。18LLM 的综合能力使它们能够浓缩大型知识库，从而有可能在时间敏感的情况下提供临床决策支持。19LLM 还可以为肿瘤介入从业者提供耗时的任务，例如撰写介入放射学学报告。20尽管LLM已经证明了前景，但诸如输出幻觉和源制造等问题限制了它们目前的可靠性。17,21为了提供对用户提示的响应，LLM 可能会“产生幻觉”并捏造事实或引用不存在的来源。22,23如果患者或医生接受了这种错误的信息，那么这种幻觉即使不是致命的，也可能是有害的。已经开发了几种方法来对抗幻觉;然而，实现差异很大，对LLM偏见和鲁棒性的担忧仍然存在。23,24有限的模型可靠性可能会增加对LLM的不信任，正如在以前的事件中所宣传的那样。25,26LLM 模型必须经过积极验证，以证明在医疗保健中安全可靠。

人工智能实施的注意事项

01 可解释性

提高模型的可解释性是在医疗保健中采用人工智能不可或缺的一部分。集成的一个重大障碍是缺乏模型透明度，因为人类很难解释定量特征。因此，模型应附有对发展和决策过程的解释。介入放射科医生还需要接受培训，以了解模型的工作原理以及如何解释结果。存在提高可解释性的技术方法，例如特征归因策略，突出对模型决策有影响的影像区域。27优先考虑可解释性将使临床医生能够做出明智的决定，尤其是在与人工智能存在分歧的情况下。28为了开发与肿瘤介入相关的有意义的 AI 解决方案，介入肿瘤医生需要在开发和验证技术方面发挥重要作用。正确理解人工智能的逻辑和能力对于广泛接受以及有意义地融入以患者为中心的治疗是必要的。

02 标准化

在实际实施之前，人工智能模型需要标准化和测试才能被信任为决策工具。它们必须经过标准的批准和监管程序，以防止对患者治疗产生负面影响。

在模型开发过程中，理想的做法是将尽可能多的步骤标准化，以确保结果的可重复性。例如，许多现有的影像组学研究使用标准化的特征提取算法，例如 PyRadiomics 包中提供的工具。29广泛采用有据可查的工具集和算法有助于标准化 AI 模型并提高其性能。此外，在整个模型开发过程中应考虑广泛性。尽管对模型结构的更改和超参数的调整可能有助于获得更高的性能，但它们可能会限制外部测试和其他应用中的通用性。必须在持续优化和及时实际实施之间找到平衡点。

程序标准的制度差异可能会对标准化造成重大限制，因为图像采集协议和可用的成像模式可能会极大地影响模型开发。此外，不同的行政实践和数据管理系统可能会影响各机构的实施。数据增强等方法试图通过增加模型的多功能性来解释制度差异。30未来的研究应探索其他广泛适用性的方法，以确保不同机构之间的均匀整合。

此外，应期望研究人员记录模型开发过程，以实现模型验收。在报告成像 AI 研究时，应采用标准化指南，例如 TRIPOD-AI（个体预后或诊断的多变量预测模型的透明报告）、PROBAST-AI（预测模型偏倚风险分析工具）、CLAIM（医学成像人工智能检查表）和 RQS（影像组学质量评分）。31,32尽管报告新型人工智能应用的出版物数量越来越多，但参考报告质量指南相对较少。出版商应制定这样的指导方针，作为对未来的期望。

2021 年，FDA 发布了“基于人工智能/机器学习（AI/ML）的软件作为医疗设备（SaMD）行动计划”。33,34该计划概述了五项预期行动：（1）量身定制的监管框架，（2）良好的机器学习实践，（3）以患者为中心的方法，包括对用户的透明度，（4）关于算法偏差和鲁棒性的监管科学方法，以及（5）现实世界的表现。美国国家标准与技术研究院（National Institute of Standards and Technology）和美国国家科学基金会（National Science Foundation）等联邦机构已采取行动，在建立人工智能标准方面促进知识、领导力和协调。还成立了国际委员会来定义技术、临床和监管标准，以确保人工智能在临床中心和地理区域的一致可操作性。肿瘤介入的研究人员和临床医生将受益于该领域。

03 模型评估

人工智能集成中一个反复出现的主题是需要减轻算法偏差并提高鲁棒性。模型必须经过外部各方的彻底检查和验证，以考虑开发和报告中可能存在的偏差。在不平衡数据上训练的算法可能会助长偏见并加剧现有的健康差异。然而，数据集描述往往缺乏评估这种偏倚所需的信息。此外，AI 模型的高性能可能是由于过度拟合或混淆，导致外部测试的性能下降。35,36因此，需要广泛的外部验证来评估模型的泛化性。

此外，人工智能指标很少代表临床适用性。37在考虑临床实施之前，有必要进行随机对照试验（randomized controlled trials， RCTs）来评估干预措施的影响。SPIRIT-AI 和 CONSORT-AI 扩展成立于 2020 年，分别为评估 AI 相关干预措施的临床试验提供方案和报告指南，这是促进人工智能研究透明度和严谨性的重要一步。38,39然而，针对人工智能技术进行的随机对照试验很少，IO的随机对照试验更少。40,41未来的随机对照试验还应考虑评估人工智能模型与人类相结合时的性能，以更真实地模拟临床场景。

04 临床实施

为了促进临床采用，人工智能模型必须以用户友好的方式集成到放射学工作流程中。这将需要熟悉人工智能的介入肿瘤学家的努力，以确保可用性。临床医生必须能够与此类技术进行交互并理解此类技术，并且必须有医生评估人工智能技术并提供反馈的机制，以及选择不将人工智能集成到工作流程中。

在将商用人工智能算法纳入临床实践之前，机构应在本地数据集上测试模型，以确定其患者群体的适用性。根据模型的预期通用性，可能需要针对特定地点的培训，以使系统适应本地使用。此外，机构应建立数据注册表和指南，以监测临床工作流程中的模型性能。这些系统将使机构能够评估人工智能模型的影响，并帮助确定潜在的改进领域和任何潜在的安全问题。

模型可能需要更新和最终的再训练，为此应事先建立监管协议。44尽管 AI 模型性能不断改进，但频繁的实现可能会导致漂移。应限制更新，并伴有对临床意义的综合评估。同样重要的是要认识到，临床和操作实践会随着时间的推移而发展，患者群体也是如此。45新算法的引入可能会在实践中引起重大变化，从而影响输入数据。因此，有必要仔细评估纵向性能，并建立识别和解决潜在漂移的方法。

05 扩大数据集，多中心努力

人工智能技术发展和实施的一个长期障碍是获得充足、高质量和具有代表性的数据，这对于防止算法偏差和提高模型鲁棒性是必要的。46这些数据的可用性也将增加外部测试的可行性，使其成为模型开发的合理期望。数据必须代表目标人群，并且无偏见，以确保模型的安全性。

由于缺乏广泛的数据集，大多数现有模型都是使用单一机构数据开发的。大多数医疗保健数据不容易用于 AI 应用程序，这些数据包含在医学成像存档系统、电子健康记录和其他难以整合的系统中。数据编码通常不一致，需要付出巨大的努力来标准化。这些因素使得建立有意义大小的数据集变得困难。为了增加数据集规模和人口异质性，需要多个机构之间高度组织化的协作努力来组合和策划全面的数据集。跨机构边界开发更大的数据集可以使 IO 更接近于拥有可推广的模型，而不是单个机构开发独特的模型。具体而言，首先在全市范围内进行跨机构数据整合的分层方法可能允许逐步开发数据库以反映具有代表性的人口。这需要机构之间加强合作，同时执行相同级别的数据保护。联邦学习是解决数据共享问题的一个潜在解决方案，即患者数据不会离开每家医院。PriMIA证明了这一点，PriMIA是一种跨多个机构进行医学成像深度学习的端到端方法。47这些工具可以在患者数据离开医院系统的情况下实现跨机构的模型开发。

结论

目前，有大量文献探讨了人工智能在IO中的潜在应用，其中许多文献显示出可喜的结果。然而，这些努力在临床实践中的转化往往不清楚。人工智能在肿瘤介入中的未来取决于标准化的实施。要实现这一目标，就需要在实地加强合作，并经常评估长期轨迹。

参考文献

1. Letzen B, Wang CJ, Chapiro J. The role of artificial intelligence in interventional oncology: a primer. J Vasc Interv Radiol. 2019;30:38-41.e1. doi: 10.1016/j.jvir.2018.08.032
2. D’Amore B, Smolinski-Zhao S, Daye D, Uppot RN. Role of machine learning and artificial intelligence in interventional oncology. Curr Oncol Rep. 2021;23:70. doi: 10.1007/s11912-021-01054-6
3. Posa A, Barbieri P, Mazza G, et al. Technological advancements in interventional oncology. Diagnostics (Basel). 2023;13:228. doi: 10.3390/diagnostics13020228
4. Leslie D, Mazumder A, Peppin A, et al. Does “AI” stand for augmenting inequality in the era of covid-19 healthcare? BMJ. 2021;372:n304. doi:10.1136/bmj.n304
5. Morshid A, Elsayes KM, Khalaf AM, et al. A machine learning model to predict hepatocellular carcinoma response to transcatheter arterial chemoembolization. Radiol Artif Intell. 2019;1:e180021. doi: 10.1148/ryai.2019180021
6. Luo Y-H, Xi IL, Wang R, et al. Deep learning based on MR imaging for predicting outcome of uterine fibroid embolization. J Vasc Interv Radiol. 2020;31:1010-1017.e3. doi: 10.1016/j.jvir.2019.11.032
7. Wesdorp NJ, Hellingman T, Jansma EP, et al. Advanced analytics and artificial intelligence in gastrointestinal cancer: a systematic review of radiomics predicting response to treatment. Eur J Nucl Med Mol Imaging. 2021;48:1785-1794. doi: 10.1007/s00259-020-05142-w
8. Liu D, Liu F, Xie X, et al. Accurate prediction of responses to transarterial chemoembolization for patients with hepatocellular carcinoma by using artificial intelligence in contrast-enhanced ultrasound. Eur Radiol. 2020;30:2365-2376. doi: 10.1007/s00330-019-06553-6
9. Daye D, Staziaki PV, Furtado VF, et al. CT texture analysis and machine learning improve post-ablation prognostication in patients with adrenal metastases: a proof of concept. Cardiovasc Intervent Radiol. 2019;42:1771-1776. doi: 10.1007/s00270-019-02336-0
10. Liu Y, Chen X, Wang Z, et al. Deep learning for pixel-level image fusion: recent advances and future prospects. Information Fusion. 2018;42:158-173. doi: 10.1016/j.inffus.2017.10.007
11. Newbury A, Ferguson C, Valero DA, et al. Interventional oncology update. Eur J Radiol Open. 2022;9:100430. doi: 10.1016/j.ejro.2022.100430
12. Li X, Young AS, Raman SS, et al. Automatic needle tracking using Mask R-CNN for MRI-guided percutaneous interventions. Int J Comput Assist Radiol Surg. 2020;15:1673-1684. doi: 10.1007/s11548-020-02226-8
13. Mwikirize C, Nosher JL, Hacihaliloglu I. Convolution neural networks for real-time needle detection and localization in 2D ultrasound. Int J Comput Assist Radiol Surg. 2018;13:647-657. doi: 10.1007/s11548-018-1721-y
14. Ali R, Tang OY, Connolly ID, et al. Performance of ChatGPT, GPT-4, and Google Bard on a neurosurgery oral boards preparation question bank. Neurosurgery. Published online June 12, 2023. doi: 10.1227/neu.0000000000002551
15. Singhal K, Tu T, Gottweis J, et al. Towards expert-level medical question answering with large language models. arXiv:2305.09617. May 16, 2023. Accessed August 8, 2023. https://arxiv.org/pdf/2305.09617
16. Nori H, King N, McKinney SM, et al. Capabilities of GPT-4 on medical challenge problems. Published March 20, 2023. Updated April 12, 2023. Accessed August 8, 2023. https://arxiv.org/pdf/2303.13375
17. Rahsepar AA, Tavakoli N, Kim GHJ, et al. How AI responds to common lung cancer questions: ChatGPT vs Google Bard. Radiology. 2023;307:e230922. doi: 10.1148/radiol.230922
18. Sorin V, Klang E, Sklair-Levy M, et al. Large language model (ChatGPT) as a support tool for breast tumor board. NPJ Breast Cancer. 2023;9:44. doi: 10.1038/s41523-023-00557-8
19. Kung TH, Cheatham M, Medenilla A, et al. Performance of ChatGPT on USMLE: potential for AI-assisted medical education using large language models. PLOS Digit Health. 2023;2:e0000198. doi: 10.1371/journal.pdig.0000198
20. Jeblick K, Schachtner B, Dexl J, et al. ChatGPT makes medicine easy to swallow: an exploratory case study on simplified radiology reports. December 30, 2022. Accessed August 8, 2023. https://arxiv.org/pdf/2212.14882
21. Bang Y, Cahyawijaya S, Lee N, et al. A multitask, multilingual, multimodal evaluation of ChatGPT on reasoning, hallucination, and interactivity. Published February 8, 2023. Updated February 28, 2023. Accessed August 8, 2023. https://arxiv.org/pdf/2302.04023
22. Feldman P, Foulds JR, Pan S. Trapping LLM “hallucinations” using tagged context prompts. June 9, 2023. Accessed August 29, 2023. https://arxiv.org/pdf/2306.06085
23. Manakul P, Liusie A, Gales MJ. Selfcheckgpt: zero-resource black-box hallucination detection for generative large language models. Published March 15, 2023. Updated May 8, 2023. Accessed August 29, 2023. https://arxiv.org/pdf/2303.08896
24. Zhuo TY, Huang Y, Chen C, Xing Z. Red teaming ChatGPT via jailbreaking: bias, robustness, reliability and toxicity. Published January 30, 2023. Updated May 29, 2023. Accessed August 29, 2023. https://arxiv.org/pdf/2301.12867
25. Weiser B. Here’s what happens when your lawyer uses ChatGPT. The New York Times. May 27, 2023. Accessed July 7, 2023. https://www.nytimes.com/2023/05/27/nyregion/avianca-airline-lawsuit-chatgpt.html
26. Alkaissi H, McFarlane SI. Artificial hallucinations in ChatGPT: implications in scientific writing. Cureus. 2023;15:e35179. doi: 10.7759/cureus.35179
27. Reyes M, Meier R, Pereira S, et al. On the interpretability of artificial intelligence in radiology: challenges and opportunities. Radiol Artif Intell. 2020;2:e190043. doi: 10.1148/ryai.2020190043
28. Amann J, Blasimme A, Vayena E, et al. Explainability for artificial intelligence in healthcare: a multidisciplinary perspective. BMC Med Inform Decis Mak. 2020;20:310. doi: 10.1186/s12911-020-01332-6
29. van Griethuysen JJM, Fedorov A, Parmar C, et al. Computational radiomics system to decode the radiographic phenotype. Cancer Res. 2017;77:e104-e107. doi: 10.1158/0008-5472.Can-17-0339
30. Srivastava N, Hinton G, Krizhevsky A, et al. Dropout: a simple way to prevent neural networks from overfitting. J Mach Learn Res. 2014;15:1929-1958.
31. Collins GS, Dhiman P, Navarro CLA, et al. Protocol for development of a reporting guideline (TRIPOD-AI) and risk of bias tool (PROBAST-AI) for diagnostic and prognostic prediction model studies based on artificial intelligence. BMJ Open. 2021;11:e048008. doi: 10.1136/bmjopen-2020-048008
32. Mongan J, Moy L, Kahn Jr CE. Checklist for artificial intelligence in medical imaging (claim): a guide for authors and reviewers. Radiol Artif Intell. 2020;2:e200029. doi: 10.1148/ryai.2020200029
33. US Food and Drug Administration. Proposed regulatory framework for modifications to artificial intelligence/machine learning (AI/ML)-based software as a medical device (SaMD). Accessed August 29, 2023. https://downloads.regulations.gov/FDA-2019-N-1185-0068/attachment_2.pdf
34. US Food and Drug Administration. Artificial intelligence/machine learning (AI/ML)-based software as a medical device (SaMD) action plan. January 2021. Accessed August 29, 2023. https://www.fda.gov/media/145022/download
35. England JR, Cheng PM. Artificial intelligence for medical image analysis: a guide for authors and reviewers. AJR Am J Roentgenol. 2019;212:513-519. doi: 10.2214/ajr.18.20490
36. Yu AC, Mohajer B, Eng J. External validation of deep learning algorithms for radiologic diagnosis: a systematic review. Radiol Artif Intell. 2022;4:e210064. doi: 10.1148/ryai.210064
37. Keane PA, Topol EJ. With an eye to AI and autonomous diagnosis. NPJ Digit Med. 2018;1:40. doi: 10.1038/s41746-018-0048-y
38. Liu X, Cruz Rivera S, Moher D, et al. Reporting guidelines for clinical trial reports for interventions involving artificial intelligence: the CONSORT-AI extension. Nat Med. 2020;26:1364-1374. doi: 10.1038/s41591-020-1034-x
39. Cruz Rivera S, Liu X, Chan A-W, et al. Guidelines for clinical trial protocols for interventions involving artificial intelligence: the SPIRIT-AI extension. Nat Med. 2020;26:1351-1363. doi: 10.1038/s41591-020-1037-7
40. Plana D, Shung DL, Grimshaw AA, et al. Randomized clinical trials of machine learning interventions in health care: a systematic review. JAMA Netw Open. 2022;5:e2233946-e2233946. doi: 10.1001/jamanetworkopen.2022.33946
41. Nagendran M, Chen Y, Lovejoy CA, et al. Artificial intelligence versus clinicians: systematic review of design, reporting standards, and claims of deep learning studies. BMJ. 2020;368:m689. doi: 10.1136/bmj.m689
42. Rajpurkar P, Chen E, Banerjee O, Topol EJ. AI in health and medicine. Nat Med. 2022;28:31-38. doi: 10.1038/s41591-021-01614-0
43. Topol EJ. High-performance medicine: the convergence of human and artificial intelligence. Nat Med. 2019;25:44-56. doi: 10.1038/s41591-018-0300-7
44. Kelly CJ, Karthikesalingam A, Suleyman M, et al. Key challenges for delivering clinical impact with artificial intelligence. BMC Med. 2019;17:195. doi: 10.1186/s12916-019-1426-2
45. Nestor B, McDermott MBA, Chauhan G, et al. Rethinking clinical prediction: why machine learning must consider year of care and feature aggregation. November 30, 2018. Accessed August 29, 2023. https://arxiv.org/pdf/1811.12583
46. Willemink MJ, Koszek WA, Hardell C, et al. Preparing medical imaging data for machine learning. Radiology. 2020;295:4-15. doi: 10.1148/radiol.2020192224
47. Kaissis G, Ziller A, Passerat-Palmbach J, et al. End-to-end privacy preserving deep learning on multi-institutional medical imaging. Nat Med Intell. 2021;3:473-484. doi: 10.1038/s42256-021-00337-8

责任编辑：肿瘤资讯-tcz
排版编辑：肿瘤资讯-tcz