首页 > 文章详情

应用机器学习算法并建立网络计算器预测T2-T4期胃癌远处转移

04月09日

整理：肿瘤资讯

来源：肿瘤资讯

胃癌（GC）是全球最常见的恶性肿瘤之一，在全球范围内其发病率位居第五，死亡率位居第三。T2-T4期胃癌属于中晚期胃癌，患者发生远处转移的风险更高，预后也更差。因此，早期识别T2-T4期胃癌远处转移的风险因素，对改善患者的生存率至关重要。传统的影像学检查如CT在远处转移（DM）的诊断准确性上仍有不足。然而，随着技术的发展，机器学习（ML）算法因其能够更准确地处理原始数据并分析数据间的复杂关联，在大型数据库的预测结果上表现出优于传统回归算法的性能。因此，本研究利用机器学习算法，旨在建立和验证一个预测远处转移的最佳模型，并最终构建网络计算器。【肿瘤资讯】特整理研究内容，以飨读者。

研究背景

GC作为全球发病率第五、死亡率第三的恶性肿瘤，尤其在T2-T4期患者中，由于肿瘤浸润较深，远处DM的风险显著升高，预示着更差的临床预后。因此，在临床诊断的早期，准确地识别和预测T2-T4期胃癌患者发生远处转移的风险，对于指导治疗策略和改善患者生存至关重要。尽管传统的影像学检查如计算机断层扫描（CT）和磁共振成像（MRI）被用于术前评估胃癌的远处转移状态，但这些方法的准确性存在局限性，尤其在发现微小转移灶时。此外，传统的Logistic回归模型在处理大规模复杂数据和高维特征时，其预测性能往往不如先进的ML算法。

本研究正是为了克服传统方法的不足，利用更强大的预测工具来指导临床决策而设计。本文基于美国SEER数据库的大样本数据（17030名T2-T4期胃癌患者），并结合中国单中心数据进行外部验证，系统地评估和比较了九种主流机器学习算法（如GBDT、XGB、RF等）在预测T2-T4期胃癌远处转移中的性能^[1]。文章的核心目标是：筛选出具有最佳预测效能的模型（确定为GBDT），并通过SHAP可解释性分析确定各风险因素的相对重要性，并最终构建一个可供临床医生实时使用的网络计算器，从而为T2-T4期胃癌患者的个体化风险预测和临床决策支持提供精确的定量依据。

研究方法

患者选择与研究设计

本研究采用回顾性队列研究设计，主要使用了美国人群癌症数据库SEER。该数据库由国家癌症研究所创建，代表了大约28%的美国人口。主要研究队列共纳入了17030名T2-T4期胃癌患者。SEER数据被随机分为训练集（n=11921）和内部验证集（n=5109），比例为7:3。此外，本研究纳入了来自兰州大学第一医院的100名胃癌患者数据作为外部验证集。

数据收集与变量处理

本研究共纳入了12个变量。所有病理指标均采用第七版AJCC TNM分期和SEER相关指南进行处理。为了保持样本完整性并避免因缺失值引起的偏倚，对于肿瘤大小、原发部位和分化程度等变量的缺失值，本研究将“未知（Unknown）”作为一个亚单位进行编码和计数。单因素和多因素Logistic回归分析在训练集上进行，以识别与远处转移相关的风险因素。最终，多因素分析中P值小于0.05的变量被确定为独立风险因素。这些独立风险因素（年龄、AJCC N、肿瘤大小、肿瘤数量、原发部位、分化程度、和组织学类型）被纳入后续的机器学习模型构建。

模型构建与评估

本研究使用了九种机器学习算法来构建预测模型，包括决策树（DT）、梯度提升决策树（GBDT）、LightGBM（LGBM）、Logistic分类（LC）、随机森林（RF）、CatBoost（CB）、eXtreme Gradient Boosting（XGB）、朴素贝叶斯（NB）和K近邻（KNN）。通过区分能力（Discrimination）、校准度（Calibration）、临床效益（Clinical Utility）、准确率（Accuracy）、F1-分数（F1-score）、精确率（Precision）和特异性（Specificity）等来评估模型性能。

统计分析

所有统计分析均使用DecisionLinnc1.0软件和R软件（版本4.2.3）进行。分类变量的比较采用卡方检验或Fisher精确检验。双侧P值小于0.05被认为具有统计学意义。

图1 研究设计流程图

研究结果

患者特征与DM患病率比较

本研究在SEER数据库中共纳入了17030名T2-T4期胃癌患者，其中有4334名患者（25.45%）发生了远处转移（DM(+)组），而12696名患者（74.55%）未发生远处转移（DM(-)组）。在临床病理特征上，DM(+)组与DM(-)组在多个因素上存在显著差异（所有P<0.05）。DM(+)组中年龄小于65岁的患者比例显著高于DM(-)组（54.71%vs.43.49%，P<0.001），且DM(+)组中肿瘤大于4 cm的患者比例较高。此外，DM(+)组中AJCC N1期患者的比例为40.29%，高于其他N分期亚组（如N0的35.23%），且单发肿瘤的比例远高于多发肿瘤（82.23%vs.17.77%，P<0.001）。在组织学上，低分化或未分化的胃癌、以及腺癌的比例在DM(+)组中均更高。

表1 SEER数据库研究人群的临床与病理学特征

独立风险因素分析

单因素Logistic回归分析显示，年龄、婚姻状况、AJCC N、肿瘤大小、肿瘤数量、原发部位、分化程度和组织学类型均为远处转移的风险因素（所有P<0.05）。随后，多变量Logistic回归分析确定了年龄、AJCC N、肿瘤大小、肿瘤数量、原发部位、分化程度和组织学类型是T2-T4期胃癌远处转移的独立风险因素（所有P<0.05）。例如，肿瘤大小未知的患者发生远处转移的几率（OR）最高，达到4.988倍（95%CI: 4.073~6.152，P<0.001），而多发肿瘤是远处转移的保护因素（OR=0.752，P<0.001）。

表2 训练集中变量的单变量与多变量逻辑回归分析

机器学习模型性能比较

九种机器学习模型在训练集、内部验证集和外部验证集上均表现出良好的预测能力。在综合评估中，GBDT模型被确定为预测远处转移的最佳模型。在训练集中，GBDT模型的AUC值最高（0.875），其准确率（Accuracy）为0.822，F1-Score为0.548，精确率（Precision）为0.786，特异性（Specificity）为0.961。在内部验证集中，GBDT模型的AUC值为0.876，且在临床决策曲线（DCA）和校准曲线上均表现出最优的临床效益和准确性。该模型在外部验证集上仍保持出色的性能（准确率0.920，AUC值0.960）。

图1 9个模型的预测性能展示

变量重要性分析与网络计算器构建

通过SHAP（Shapley's Additive explanation）可解释性分析，确定了七个独立风险因素在GBDT模型中的相对重要性。重要性从高到低依次为：肿瘤大小（SHAP值最大，为1）、AJCC N分期（SHAP值大于1但小于肿瘤大小）、组织学类型、肿瘤数量、分化程度、原发部位和年龄。鉴于GBDT模型的复杂性不适合临床推广，本研究最终基于GBDT模型构建了一个网络计算器，以实现T2-T4期胃癌远处转移风险的个体化、实时和可视化预测。

图2 基于Shap的变量在GBDT预测模型中的相对重要性

结论

本研究利用大规模SEER数据库和外部验证队列，系统性地证实了机器学习模型在预测T2-T4期胃癌患者DM风险中的高效性和临床实用性。研究明确确立了GBDT模型在九种模型中表现最佳，展现出优秀的区分能力（训练集AUC=0.875，外部验证集AUC=0.960）和准确的校准度。通过多因素Logistic回归分析，研究识别并纳入了七个与远处转移独立的风险因素：年龄、AJCC N分期、肿瘤大小、肿瘤数量、原发部位、分化程度和组织学类型。研究结果进一步通过SHAP可解释性分析揭示了这些风险因素的相对重要性，其中肿瘤大小和AJCC N分期是影响远处转移的最重要因素。为弥补复杂机器学习模型难以直接应用于临床的不足，本文基于GBDT模型构建了网络计算器，实现了T2-T4期胃癌远处转移风险的个体化和实时定量预测。这些发现强有力地强调了在T2-T4期胃癌的临床诊疗中，利用先进的机器学习工具进行精准风险分层的可行性与必要性。本文的研究支持将这一网络计算器作为一种临床决策支持工具，以辅助临床医生对高风险患者进行早期识别、强化监测和个体化治疗方案的制定。未来的胃癌综合管理应积极整合此类智能预测模型，以期最终改善患者的预后和临床结局。

参考文献

[1]Wang H, Zhang H, Ma X, et al. Application of machine learning algorithms and establishment of a web calculator in predicting distant metastasis of T2-T4 gastric cancer. Eur. J. Surg. Oncol. 2026;52:111170. doi:10.1016/j.ejso.2025.111170.

审批编号：CN-181662 有效期：2027-4-3

声明：本材料由阿斯利康提供，仅供医疗卫生专业人士进行医学科学交流，不用于推广目的。

责任编辑：肿瘤资讯-Skye
排版编辑：肿瘤资讯-Alex