您好,欢迎您

应用机器学习算法并建立网络计算器预测T2-T4期胃癌远处转移

04月09日
整理:肿瘤资讯
来源:肿瘤资讯

胃癌(GC)是全球最常见的恶性肿瘤之一,在全球范围内其发病率位居第五,死亡率位居第三。T2-T4期胃癌属于中晚期胃癌,患者发生远处转移的风险更高,预后也更差。因此,早期识别T2-T4期胃癌远处转移的风险因素,对改善患者的生存率至关重要。传统的影像学检查如CT在远处转移(DM)的诊断准确性上仍有不足。然而,随着技术的发展,机器学习(ML)算法因其能够更准确地处理原始数据并分析数据间的复杂关联,在大型数据库的预测结果上表现出优于传统回归算法的性能。因此,本研究利用机器学习算法,旨在建立和验证一个预测远处转移的最佳模型,并最终构建网络计算器。【肿瘤资讯】特整理研究内容,以飨读者。

研究背景

GC作为全球发病率第五、死亡率第三的恶性肿瘤,尤其在T2-T4期患者中,由于肿瘤浸润较深,远处DM的风险显著升高,预示着更差的临床预后。因此,在临床诊断的早期,准确地识别和预测T2-T4期胃癌患者发生远处转移的风险,对于指导治疗策略和改善患者生存至关重要。尽管传统的影像学检查如计算机断层扫描(CT)和磁共振成像(MRI)被用于术前评估胃癌的远处转移状态,但这些方法的准确性存在局限性,尤其在发现微小转移灶时。此外,传统的Logistic回归模型在处理大规模复杂数据和高维特征时,其预测性能往往不如先进的ML算法。

本研究正是为了克服传统方法的不足,利用更强大的预测工具来指导临床决策而设计。本文基于美国SEER数据库的大样本数据(17030名T2-T4期胃癌患者),并结合中国单中心数据进行外部验证,系统地评估和比较了九种主流机器学习算法(如GBDT、XGB、RF等)在预测T2-T4期胃癌远处转移中的性能[1]。文章的核心目标是:筛选出具有最佳预测效能的模型(确定为GBDT),并通过SHAP可解释性分析确定各风险因素的相对重要性,并最终构建一个可供临床医生实时使用的网络计算器,从而为T2-T4期胃癌患者的个体化风险预测和临床决策支持提供精确的定量依据。

研究方法

患者选择与研究设计

本研究采用回顾性队列研究设计,主要使用了美国人群癌症数据库SEER。该数据库由国家癌症研究所创建,代表了大约28%的美国人口。主要研究队列共纳入了17030名T2-T4期胃癌患者。SEER数据被随机分为训练集(n=11921)和内部验证集(n=5109),比例为7:3。此外,本研究纳入了来自兰州大学第一医院的100名胃癌患者数据作为外部验证集。

数据收集与变量处理

本研究共纳入了12个变量。所有病理指标均采用第七版AJCC TNM分期和SEER相关指南进行处理。为了保持样本完整性并避免因缺失值引起的偏倚,对于肿瘤大小、原发部位和分化程度等变量的缺失值,本研究将“未知(Unknown)”作为一个亚单位进行编码和计数。单因素和多因素Logistic回归分析在训练集上进行,以识别与远处转移相关的风险因素。最终,多因素分析中P值小于0.05的变量被确定为独立风险因素。这些独立风险因素(年龄、AJCC N、肿瘤大小、肿瘤数量、原发部位、分化程度、和组织学类型)被纳入后续的机器学习模型构建。

模型构建与评估

本研究使用了九种机器学习算法来构建预测模型,包括决策树(DT)、梯度提升决策树(GBDT)、LightGBM(LGBM)、Logistic分类(LC)、随机森林(RF)、CatBoost(CB)、eXtreme Gradient Boosting(XGB)、朴素贝叶斯(NB)和K近邻(KNN)。通过区分能力(Discrimination)、校准度(Calibration)、临床效益(Clinical Utility)、准确率(Accuracy)、F1-分数(F1-score)、精确率(Precision)和特异性(Specificity)等来评估模型性能。

统计分析

所有统计分析均使用DecisionLinnc1.0软件和R软件(版本4.2.3)进行。分类变量的比较采用卡方检验或Fisher精确检验。双侧P值小于0.05被认为具有统计学意义。

图1 研究设计流程图

研究结果

患者特征与DM患病率比较

本研究在SEER数据库中共纳入了17030名T2-T4期胃癌患者,其中有4334名患者(25.45%)发生了远处转移(DM(+)组),而12696名患者(74.55%)未发生远处转移(DM(-)组)。在临床病理特征上,DM(+)组与DM(-)组在多个因素上存在显著差异(所有P<0.05)。DM(+)组中年龄小于65岁的患者比例显著高于DM(-)组(54.71%vs.43.49%,P<0.001),且DM(+)组中肿瘤大于4 cm的患者比例较高。此外,DM(+)组中AJCC N1期患者的比例为40.29%,高于其他N分期亚组(如N0的35.23%),且单发肿瘤的比例远高于多发肿瘤(82.23%vs.17.77%,P<0.001)。在组织学上,低分化或未分化的胃癌、以及腺癌的比例在DM(+)组中均更高。

表1 SEER数据库研究人群的临床与病理学特征

独立风险因素分析

单因素Logistic回归分析显示,年龄、婚姻状况、AJCC N、肿瘤大小、肿瘤数量、原发部位、分化程度和组织学类型均为远处转移的风险因素(所有P<0.05)。随后,多变量Logistic回归分析确定了年龄、AJCC N、肿瘤大小、肿瘤数量、原发部位、分化程度和组织学类型是T2-T4期胃癌远处转移的独立风险因素(所有P<0.05)。例如,肿瘤大小未知的患者发生远处转移的几率(OR)最高,达到4.988倍(95%CI: 4.073~6.152,P<0.001),而多发肿瘤是远处转移的保护因素(OR=0.752,P<0.001)。

表2 训练集中变量的单变量与多变量逻辑回归分析

机器学习模型性能比较

九种机器学习模型在训练集、内部验证集和外部验证集上均表现出良好的预测能力。在综合评估中,GBDT模型被确定为预测远处转移的最佳模型。在训练集中,GBDT模型的AUC值最高(0.875),其准确率(Accuracy)为0.822,F1-Score为0.548,精确率(Precision)为0.786,特异性(Specificity)为0.961。在内部验证集中,GBDT模型的AUC值为0.876,且在临床决策曲线(DCA)和校准曲线上均表现出最优的临床效益和准确性。该模型在外部验证集上仍保持出色的性能(准确率0.920,AUC值0.960)。

图1 9个模型的预测性能展示

变量重要性分析与网络计算器构建

通过SHAP(Shapley's Additive explanation)可解释性分析,确定了七个独立风险因素在GBDT模型中的相对重要性。重要性从高到低依次为:肿瘤大小(SHAP值最大,为1)、AJCC N分期(SHAP值大于1但小于肿瘤大小)、组织学类型、肿瘤数量、分化程度、原发部位和年龄。鉴于GBDT模型的复杂性不适合临床推广,本研究最终基于GBDT模型构建了一个网络计算器,以实现T2-T4期胃癌远处转移风险的个体化、实时和可视化预测。

图2 基于Shap的变量在GBDT预测模型中的相对重要性

结论

本研究利用大规模SEER数据库和外部验证队列,系统性地证实了机器学习模型在预测T2-T4期胃癌患者DM风险中的高效性和临床实用性。研究明确确立了GBDT模型在九种模型中表现最佳,展现出优秀的区分能力(训练集AUC=0.875,外部验证集AUC=0.960)和准确的校准度。通过多因素Logistic回归分析,研究识别并纳入了七个与远处转移独立的风险因素:年龄、AJCC N分期、肿瘤大小、肿瘤数量、原发部位、分化程度和组织学类型。研究结果进一步通过SHAP可解释性分析揭示了这些风险因素的相对重要性,其中肿瘤大小和AJCC N分期是影响远处转移的最重要因素。为弥补复杂机器学习模型难以直接应用于临床的不足,本文基于GBDT模型构建了网络计算器,实现了T2-T4期胃癌远处转移风险的个体化和实时定量预测。这些发现强有力地强调了在T2-T4期胃癌的临床诊疗中,利用先进的机器学习工具进行精准风险分层的可行性与必要性。本文的研究支持将这一网络计算器作为一种临床决策支持工具,以辅助临床医生对高风险患者进行早期识别、强化监测和个体化治疗方案的制定。未来的胃癌综合管理应积极整合此类智能预测模型,以期最终改善患者的预后和临床结局。

参考文献

[1]Wang H, Zhang H, Ma X, et al. Application of machine learning algorithms and establishment of a web calculator in predicting distant metastasis of T2-T4 gastric cancer. Eur. J. Surg. Oncol. 2026;52:111170. doi:10.1016/j.ejso.2025.111170.

审批编号:CN-181662 有效期:2027-4-3

声明:本材料由阿斯利康提供,仅供医疗卫生专业人士进行医学科学交流,不用于推广目的。

责任编辑:肿瘤资讯-Skye
排版编辑:肿瘤资讯-Alex
版权声明
版权归肿瘤资讯所有。欢迎个人转发分享,其他任何媒体、网站如需转载或引用本网版权所有内容,须获得授权,且在醒目位置处注明“转自:良医汇-肿瘤医生APP”。