您好,欢迎您

从循证医学的角度浅谈医学人工智能的应用研究

10月03日
来源:智能肿瘤学

1

什么是循证医学?


循证医学(Evidence-Based Medicine, EBM)是意为"遵循证据的医学",又称实证医学。其核心思想是医疗决策(即医生对患者的诊疗行为,治疗指南和医疗政策的制定等)应在现有的最好的临床研究证据的基础上做出,同时也重视结合个人的临床经验。循证医学创始人之一David Sackett 1996年在 BMJ 发表文章,定义循证医学是“慎重、准确、明智地应用所能获得的最好研究证据来确定个体患者的治疗措施”。2014 年,Gordon Guyatt 在第 22 届 Cochrane 年会上,进一步完善循证医学定义为:“临床实践需结合临床医生个人经验、患者意愿和来自系统化评价和合成的研究证据” 。


EBM不同于传统医学,它强调任何医疗决策应建立在最佳科学研究证据基础上。而传统医学是以经验医学为主,即根据非实验性的临床经验、临床资料和对疾病基础知识的理解来诊治病人。因此,EBM的兴起是对传统医学中经验主义和权威主义的一种挑战,它强调了临床决策的基础是临床技能,关键是最佳证据,实践必须考虑患者意愿和决策环境。


2

医学人工智能的发展与挑战


人工智能(artificial intelligence,AI)技术迎来了快速发展, OpenAI发布了系列生成型预训练的(Generative Pre-trained Transformer,GPT)  大语言模型,尤其是近期发布GPT-4等,这些技术的进步与革新正在深刻改变医疗行业的面貌。人工智能技术在医疗领域的应用广泛,其在疾病诊断、危险因素识别、患者风险分层和治疗决策等方面均展现出巨大潜力。


然而,尽管人工智能技术在医疗领域的应用潜力巨大、前景广阔,但是它在应用于临床实践时也面临着一系列挑战。其中最突出的是人工智能模型的可解释性问题,即这些模型的决策过程往往缺乏透明度,使得医生和患者都难以理解其推荐背后的逻辑。而临床决策的不可解释性就会带来严重的医学伦理问题,包括算法偏见和责任归属等,这些都是在人工智能技术融入临床实践时必须慎重考虑的方面。也就是说当临床医生利用人工智能模型辅助开展临床决策时,一旦出现问题,如果其决策过程是非透明化的、不可解释的,那么其责任归属可能变得复杂。最后,按照循证医学的理念,人工智能模型在不同人群(如不同种族人群)和临床环境(如不同等级、地区医疗机构)中的准确性和可靠性也需要得到充分的验证和评估,这样才能得到充分的科学证据支撑其有效性,而对于算法来说,也只有这样才能证明其鲁棒性。


面对这些挑战,将人工智能技术和循证医学的原则相结合则显得尤为重要。循证医学强调在医疗决策中应用最佳可用证据,这要求人工智能技术的开发和应用必须基于严格的科学研究和临床试验。提高人工智能模型的透明度,确保医疗专业人员和患者能够理解其决策过程,是增强信任和接受度的关键。此外,人工智能技术的研发和应用过程中,必须严格遵守医学伦理原则,保护患者的隐私和权益。


因此,对于人工智能技术在医学中的应用,跨学科的合作至关重要,亟需在循证医学的理念支撑下,由医学、计算机科学、统计学、流行病学等领域的专家学者共同努力,确立出可信、可行的医疗领域人工智能模型开发、验证、报道的研究规范,以及对通过效果验证的人工智能模型设置专门临床试验和上市后效果监测规范,强调对医学人工智能模型从研究到应用的规范性,遵循科学证据,开展医学人工智能模型开发及应用。


3

以TRIPOD-AI为例,说明如何规范开展医学AI研究


2020年,BMJ正刊发表了一篇对 COVID-19 相关预测模型的Review指出,纳入的107研究中有超过一半的研究使用了人工智能技术来开发预测模型,这表明当前人工智能技术已被广泛应用于当前医学预测模型的相关研究中。但是,基于循证医学的理念,为了评估人工智能模型的有效性,有研究者针对目前已经开发的人工智能模型进行了性能和效果的评价 ,发现相关研究质量参差不齐,超过三分之一的研究仅利用重采样进行效果验证,甚至还有10%的研究没有报导任何对有效性的验证结果。为了解决这些问题,来自牛津大学、哈佛大学等高校的研究者于2020年开始筹备基于人工智能的诊断和预后预测模型研究的报告指南(Transparent Reporting of a multivariable prediction model for Individual Prognosis Or Diagnosis plus Artificial Intelligence,TRIPOD-AI),该指南已于今年4月份正式在BMJ正刊发表,该指南为利用人工智能技术开发或评估预测模型性能的研究提供最低限度的报告建议。由于篇幅所限,下文将仅对该指南中的结果方法进行介绍,详细信息读者可以自行查阅原文。结果部分需要对研究对象、模型开发、模型规范和模型性能等方面进行,具体如下:


1)研究对象

a.研究者需要描述研究流程,包括参与者总人数以及是否发生结局事件的人数,如果是纵向预测,还应提供随访时间。

b.研究者需要报告总体特征,以及存在多个来源的独立数据集的话,针对每个独立数据集报告特征,包括日期、人口统计数据、接受的治疗、样本量大小、结果事件数量、随访时间和缺失数据量。

c.对于模型评估,研究者需要展示评估数据集与开发数据集重要预测因子分布的差异比较。例如,在模型性能评估阶段,需要比较测试集中的研究对象人口统计数据与训练集是否有显著差异,并考虑这些差异是否会影响模型性能。


2)模型开发

研究者需要指定模型开发中每个步骤纳入的参与者数量和结果事件(例如,用于模型开发、超参数调整、模型评估)。例如,如果我们正在开发一个预测抑郁症患者30天内再入院的人工智能模型,我们可能会报告:在模型开发阶段,有10,000名抑郁症患者,其中有600个在出院后发生了30天内再入院的事件。在进行模型的超参数调整时,使用10折分层交叉验证,对应也明确了每个交叉验证折叠中的参与者数量和事件数量。在模型评估阶段,在另一个独立的测试集上评估该模型模型,需要报告该测试集中有多少名参与者以及对应发生的结局事件数量。


3)模型规范

研究者需要提供完整的人工智能预测模型的详细信息(如公式、代码、对象、应用程序编程接口),以便他人可以在复现研究并利用新的数据进行第三方评估和实施。一般可以提供GitHub的开源代码或者部署一个网站使得其他研究者可以方便的上传少量数据用于模型效果的验证评估


4)模型性能

研究者需要报告人工智能预测模型性能的点估计值及其置信区间,以及其在一些重要子群体(例如,社会人口统计)中的性能表现。例如,基于超声影像数据,开发了针对三阴性乳腺癌的5年生存率预测模型,除了报告预测模型在整个独立测试集上的准确性、精确性、召回率和AUC外,还应该报道该模型在不同年龄组、不同居住地区、不同种族乃至不同经济收入水平的子群体的性能表现。


5)模型更新

研究者需要报告任何模型有所更新的结果,包括更新后的模型和其性能变化。


图 TRIPOD-AI中对于Results部分撰写的要求


【参考文献】

1. Sackett DL, Rosenberg WM, Gray JA, et al. Evidence based medicine: what it is and what it isn't. BMJ, 1996, 312(7023): 71-72.

2. 李幼平, 李静, 孙鑫, 等. 循证医学在中国的起源与发展: 献给中国循证医学 20 周年[J]. 中国循证医学杂志, 2016, 16(1): 2-6.

3. Prediction models for diagnosis and prognosis of covid-19: systematic review and critical appraisal. BMJ 2020;369:m1328

4. A systematic review shows no performance benefit of machine learning over logistic regression for clinical prediction models. J Clin Epidemiol 2019

责任编辑:肿瘤资讯-ginger
排版编辑:肿瘤资讯-ginger


版权声明
版权归肿瘤资讯所有。欢迎个人转发分享,其他任何媒体、网站如需转载或引用本网版权所有内容,须获得授权,且在醒目位置处注明“转自:良医汇-肿瘤医生APP”。

评论
10月07日
戴红
首都医科大学附属北京朝阳医院 | 肿瘤科
循证医学(Evidence-Based Medicine, EBM)是意为"遵循证据的医学",又称实证医学。
10月07日
贾原菊
宜城市人民医院 | 肿瘤内科
好好学习天天向上
10月05日
石常庆
沛县人民医院 | 肿瘤科
融入临床实践时必须慎重考虑