您好,欢迎您

【2025EHA抢先看】国际验证及优化:基于常规实验室数据的急性白血病亚型分类机器学习算法

05月23日
编译:肿瘤资讯
来源:肿瘤资讯

2025年6月12日~6月15日,第30届欧洲血液学会(EHA)年会将在“艺术之都”意大利米兰隆重举行。2025年5月14日15时59分(当地时间),大会提前公布了近4000项研究的最新成果。其中,德国Merlin Engelke教授团队汇报的“基于常规实验室数据的急性白血病亚型分类机器学习算法的优化与国际验证”(摘要号:334)引起了广泛关注。

16x9-EHA&ICML.jpg

基于常规实验室数据的急性白血病亚型分类机器学习算法的优化与国际验证

  • 英文标题:REFINEMENT AND INTERNATIONAL VALIDATION OF A MACHINE LEARNING ALGORITHM FOR CLASSIFYING ACUTE LEUKEMIA SUBTYPES USING ROUTINE LABORATORY DATA

  • 摘要号:S334

研究背景

在资源有限的环境中,急性白血病(Acute Leukemias, AL)的及时诊断仍具挑战性,诊断延迟可能增加早期死亡率,尤其是急性早幼粒细胞白血病(Acute Promyelocytic Leukemia, APL)(Rego等,Blood 2013;Odetola & Tallman,ASH教育项目 2023)。此前基于法国队列常规实验室数据的研究显示,机器学习(Machine Learning, ML)模型取得了鼓舞人心的结果(Alcazer等,Lancet数字健康 2024),但其全球普适性仍需进一步验证。

研究目的

本研究旨在通过国际多中心队列验证并优化一种基于常规实验室数据的急性白血病亚型分类机器学习算法,提升其在资源有限环境中的普适性和临床应用价值。

研究方法

本研究纳入了来自14个国家的5,511例AL患者(成人4,222例,儿童1,289例),年龄覆盖0至97岁。记录首次就诊时的常规实验室参数,包括白细胞总数、单核细胞计数、淋巴细胞计数、血小板、平均红细胞体积(MCV)、平均血红蛋白浓度(MCHC)、乳酸脱氢酶(LDH)、纤维蛋白原、凝血酶原活性及年龄。采用极端梯度提升(Extreme Gradient Boosting, XGB)模型构建Python数据分析流程,结合HL7/FHIR数据集成,并通过局部离群因子(Local Outlier Factor)和孤立森林(Isolation Forest)技术优化模型。按研究站点评估性能,并使用SHapley加法解释(SHAP)识别关键预测特征。

研究结果

在5,511例急性淋巴细胞白血病(ALL)、急性髓系白血病(AML)和APL患者中,算法“高置信”预测的曲线下面积(AUC)中位峰值分别为:APL 99.7,AML 98.8,ALL 98.8。各地区的F1分数较高(如欧洲队列中AML F1=0.97 [95% CI 0.972-0.973],亚洲队列中ALL F1=0.94 [95% CI 0.937-0.943]),但高置信预测仅适用于少数患者。未设置置信度阈值时,Salamanca数据集中AML和APL的整体性能最佳,提示特征依赖性存在差异。SHAP分析一致显示,凝血酶原活性和单核细胞计数是关键预测因子;LDH对ALL、MCV和年龄对AML、纤维蛋白原和MCHC对APL具有特异性价值。

针对各站点非置信预测的异质性,本研究分析了算法局限性(包括误分类偏倚),并开发了离群值检测工具。该工具显著提升了性能:ALL的AUROC从0.73升至0.80,AML从0.72升至0.83,APL从0.88升至0.95,增强了模型的稳健性和临床适用性。

1747966821924.jpg

研究结论

本研究通过大规模、多样化队列及离群值检测策略,实现了AI驱动的AL亚型诊断工具的国际验证,显著提升了模型在临床场景(如急诊科)中的普适性和应用性能。此类包容性AI工具有望减少血液学领域的诊断壁垒。

参考文献

EHA Library. Engelke M. 06/15/2025; 4159411; S334

WechatIMG929.jpg

更多精彩内容请关注2025 EHA&ICML专栏!
责任编辑:Amiee
排版编辑:Amiee


版权声明
版权归肿瘤资讯所有。欢迎个人转发分享,其他任何媒体、网站如需转载或引用本网版权所有内容,须获得授权,且在醒目位置处注明“转自:良医汇-肿瘤医生APP”。

评论
05月23日
孙有泉
大连市金州区中医医院 | 肿瘤科
好好学习天天向上