您好,欢迎您

基于LightGBM机器学习算法的胆管癌诊断模型构建与验证

12月27日
整理:肿瘤资讯
来源:肿瘤资讯

胆管癌(CCA)是第二大常见的肝胆系统恶性肿瘤,其发病率和死亡率在全球范围内呈逐年上升趋势。由于早期临床症状隐匿,多数患者在确诊时已处于中晚期,错失了最佳的手术治疗窗口,导致患者预后极差,5年生存率仅为7%-20%。现有的诊断方法在敏感性和特异性上仍有不足,迫切需要寻找更有效、无创的诊断标志物及构建高精度的预测模型。随着人工智能技术的飞速发展,机器学习(ML)算法在挖掘复杂生物医学数据、识别疾病特征及构建预测模型方面展现出巨大潜力。近期发表于 Scientific Reports 的一项研究,通过整合多中心转录组数据,利用加权基因共表达网络分析(WGCNA)和多种机器学习算法,筛选出关键的差异表达基因(DEGs),并成功构建了基于LightGBM算法的最佳CCA诊断模型。【肿瘤资讯】特整理该研究精华,以飨读者。

研究背景

CCA具有高度的异质性,其发生发展涉及复杂的基因调控网络。传统的单基因标志物往往难以全面反映肿瘤的生物学特征,导致诊断效能受限。机器学习能够处理高维数据,从海量基因表达谱中提取关键特征,构建多基因联合诊断模型。然而,目前针对CCA的机器学习诊断模型研究相对较少,且缺乏对不同算法性能的系统比较。本研究旨在通过生物信息学手段筛选与CCA密切相关的核心基因,并比较11种主流机器学习算法的性能,优选出最佳模型,进而通过临床样本验证其表达特征,并探索其与免疫微环境及药物敏感性的潜在联系。

研究方法

本研究整合了来自GEO数据库的4个CCA数据集(GSE26566, GSE132305, GSE45001, GSE57555),共包含307例肿瘤组织和124例癌旁组织。通过差异表达分析筛选DEGs,并利用WGCNA识别与CCA最相关的基因模块。将DEGs与WGCNA筛选出的模块基因取交集,进一步通过F检验、特征重要性分析(Characteristic Importance)及Lasso回归三种方法联合筛选,最终确定关键DEGs。

在模型构建阶段,研究者将样本随机分为训练集和验证集(7:3比例),利用11种机器学习算法(包括逻辑回归、支持向量机、随机森林、XGBoost、LightGBM等)构建诊断模型。通过受试者工作特征曲线(ROC)、精确率-召回率曲线(PR)、校准曲线及决策曲线分析(DCA)等指标,全方位评估各模型的性能,筛选出最优算法。此外,研究还进行了基因功能富集分析(GO/KEGG)、蛋白互作网络(PPI)构建、免疫细胞浸润分析(CiberSort)以及与免疫调节因子和潜在治疗药物的相关性分析。最后,收集10对临床CCA组织及癌旁组织,利用RT-qPCR验证关键基因的表达水平。

研究结果

关键差异基因的筛选与鉴定

通过对合并数据集的分析,研究共鉴定出105个DEGs(16个上调,89个下调)。WGCNA分析显示,青绿色模块与CCA的相关性最强,包含1288个基因。将DEGs与模块基因取交集获得20个候选基因。经过F检验、特征重要性及Lasso回归的严格筛选,最终锁定了4个核心基因:APOF(载脂蛋白F)、APOM(载脂蛋白M)、DIO1(1型碘甲腺原氨酸脱碘酶)和OTC(鸟氨酸氨甲酰基转移酶)(图1)。由于DIO1与APOM存在强共表达关系,为避免过拟合,研究者构建了两种基因组合模型进行比较,最终确定包含APOF、DIO1和OTC的组合具有更优的诊断潜力。

图1. CCA关键差异基因的筛选流程

LightGBM算法构建最佳诊断模型

在对11种机器学习算法的比较中,基于APOF、DIO1和OTC三基因的LightGBM模型表现最为出色。其AUC值高达0.84,准确率为0.80,精确率为0.83,召回率(Recall)为0.90,均优于其他算法。PR曲线、校准曲线及DCA曲线也一致显示LightGBM模型具有最佳的拟合度和临床净获益(图2)。此外,学习曲线表明,随着样本量增加,LightGBM模型的训练集和验证集曲线逐渐收敛且保持高分,证明其泛化能力强,不易过拟合。

图2. 11种机器学习算法诊断模型的性能评估

关键基因的功能与免疫微环境关联

RT-qPCR验证证实,APOF、DIO1和OTC在CCA组织中均显著下调(P<0.0001),这与数据库分析结果一致,提示它们可能作为抑癌基因发挥作用(图3)。免疫浸润分析发现,CCA组织中活化的树突状细胞浸润显著增加,且关键基因(APOF, DIO1, OTC)的表达与巨噬细胞、单核细胞、中性粒细胞及NK细胞的丰度呈显著正相关。此外,这些基因还与多种免疫调节因子(如CCL16, CCL15, CD160)存在显著相关性,特别是趋化因子CCL16与三个关键基因均正相关,提示它们可能通过调节免疫微环境影响肿瘤进展。

图3. 临床样本RT-qPCR验证关键基因表达

潜在治疗药物预测

基于CMap数据库的分析筛选出了与CCA高度相关的潜在治疗小分子化合物,如MEK抑制剂PD-198306、钠通道激活剂DPI-201106等。此外,通过CTD数据库分析发现,某些化合物(如凡士林、双酚A等)可能通过调节关键基因的mRNA表达或甲基化水平影响CCA进程,这为未来的药物开发提供了线索。

结论

本研究通过科学严谨的生物信息学分析和机器学习算法筛选,确立了以APOF、DIO1OTC为核心特征基因,基于LightGBM算法的CCA诊断模型。该模型具有卓越的诊断效能和稳健性,有望成为辅助CCA早期诊断的有力工具。研究还揭示了这些关键基因在免疫微环境调节及代谢通路中的潜在作用,并预测了相关治疗药物。尽管仍需扩大样本量及进行前瞻性验证,但本研究为CCA的分子诊断和靶向治疗提供了新的视角和理论基础。

参考文献

Zhang Z, Geng X, Yin M, et al. Establishment and validation of a diagnostic model for cholangiocarcinoma based on LightGBM machine-learning algorithm. Sci Rep. 2025;15:30431. doi:10.1038/s41598-025-30431-5

审批编号:CN-174986

过期日期:2026-12-17

声明:本材料由阿斯利康提供支持,仅供医疗卫生专业人士参考

责任编辑:肿瘤资讯-Skye
排版编辑:肿瘤资讯-Sally
版权声明
版权归肿瘤资讯所有。欢迎个人转发分享,其他任何媒体、网站如需转载或引用本网版权所有内容,须获得授权,且在醒目位置处注明“转自:良医汇-肿瘤医生APP”。

评论
12月27日
苗军程
金乡县人民医院 | 肿瘤内科
CCA具有高度的异质性,其发生发展涉及复杂的基因调控网络。