您好,欢迎您

Cell发布最新医学AI模型Path2Space,直接从HE病理切片预测数千个基因空间表达量

05月11日
来源:罗小罗同学

常规的苏木精-伊红(H&E)染色切片成本低廉、操作简单,是临床诊断的"金标准",但它只能提供形态学信息。


而能同时揭示基因表达位置和水平的空间转录组(Spatial Transcriptomics, ST)技术,就像给组织做了一个"基因GPS",彻底改变了我们对肿瘤异质性和微环境的理解。


它能让我们看到肿瘤内部不同区域的基因表达差异,发现免疫细胞和癌细胞的空间相互作用,这些信息直接关系到患者的治疗反应和生存预后。

640.jpg

然而,空间转录组的临床转化却被一道难以逾越的"成本高墙"挡住了去路。正如这篇发表在《Cell》杂志上的研究指出的,传统空间转录组技术不仅价格昂贵(每个样本数千美元),而且通量极低,无法应用于大规模生物标志物发现和临床常规检测。

为了解决上述问题,美国国家癌症研究所和Cedars-Sinai医学中心的联合团队带来了突破性的解决方案——Path2Space。

模块A:空间转录组预测模型

这是整个研究的基础,目标是训练一个能直接从H&E病理切片预测数千个基因空间表达的深度学习模型。

640(1).jpg

数据集划分

  • 交叉验证训练集:使用Bassiouni等人的乳腺癌空间转录组数据集,包含14名患者的22张切片,共56,567个匹配的"图像斑点-基因表达"对(每个斑点对应组织上55μm直径的区域,约1-10个细胞)。


  • 外部验证集:使用3个完全独立的队列验证模型泛化能力:HEST(4人)、Martinez等人(4人)、HTAN(7人)。

两步工作流程

(1)预处理(Preprocessing)

  1. 从全切片病理图像(WSI)中,在每个空间转录组(ST)斑点的位置,切出一个80μm见方的小图像块(tile);


  2. 对图像块进行颜色归一化,消除不同实验室染色差异带来的干扰;


  3. 得到标准化的输入图像。

(2)回归预测(Regression)

  1. 特征提取:使用专门为数字病理训练的基础模型CTransPath,将标准化图像块转化为768维的抽象视觉特征;


  2. 基因表达预测:将视觉特征输入一个简单高效的多层感知机(MLP)神经网络,输出该斑点对应的14,068个基因的表达量(覆盖乳腺癌中绝大多数有功能的基因)。

模块B:空间亚型(SpatioTypes)分析

用训练好的Path2Space模型分析大规模临床队列,首次基于AI预测的空间转录组特征,定义了具有预后价值的乳腺癌新亚型。

2.jpg

分析队列

  • 发现队列:TCGA-BRCA(976名乳腺癌患者),用于识别新亚型;


  • 验证队列:METABRIC(141名患者),用于独立验证亚型的预后价值。

三步分析流程

1. 空间聚类:对每个患者的H&E切片,用Path2Space预测全切片的空间基因表达,然后将表达模式相似的相邻区域聚成"空间转录组簇"(每个切片平均得到6.6个簇);

2. 跨患者元聚类:将所有患者的"空间簇比例矩阵"放在一起进行无监督聚类,最终得到3个具有显著生物学差异和生存差异的空间亚型(SpatioTypes):

  • 增殖富集型:高增殖活性,与高病理分期相关;


  • 免疫调节型:高免疫细胞浸润,预后最好;


  • 免疫失活型:低免疫活性,预后最差;

3. 生存分析:验证这3个亚型与患者无病生存期的显著相关性(免疫失活型患者的死亡风险是免疫调节型的2倍以上)。

模块C:生存与治疗反应预测

这是研究最具转化价值的部分,展示了Path2Space如何仅用常规H&E切片,准确预测患者对化疗和曲妥珠单抗的治疗反应,性能超越传统昂贵的分子检测。

3.jpg

1. 验证队列

  • 交叉验证集:TransNEO队列(曲妥珠单抗治疗61人,化疗93人);


  • 外部验证集:3个独立临床队列:PBCP、IMPRESS、Cedars-Sinai(共覆盖189名患者)。

2. 两种独立的预测方法

(1)空间分布法(SPAND指标)

专门针对HER2阳性乳腺癌的曲妥珠单抗治疗反应预测:

  • 定义SPAND(空间邻域多样性)指标,量化HER2基因表达在100×100μm局部区域的异质性;


  • 高SPAND:HER2高表达细胞与低表达细胞混合分布;


  • 低SPAND:HER2表达均一;


  • 核心发现:高SPAND患者对曲妥珠单抗的反应显著更好(AUC最高达0.89),优于传统的平均HER2表达量检测。

(2)空间簇模型

通用的化疗/曲妥珠单抗反应预测方法:

  • 与模块B一致,先计算每个患者的11个空间转录组簇的比例;


  • 用这些比例作为特征,训练一个简单的逻辑回归模型;


  • 结果:在化疗预测中AUC最高达0.89,在曲妥珠单抗预测中AUC最高达0.90,性能与昂贵的bulk RNA测序相当甚至更优。

这个深度学习模型能直接从常规H&E切片中预测数千个基因的空间表达,成本仅为传统空间转录组的几十分之一,却能达到甚至超越传统分子检测的临床预测能力。它不仅解锁了存量病理数据的巨大价值,更为乳腺癌的精准诊疗开辟了一条全新的道路。

一、让普通病理切片"说出"基因的空间故事

传统方法是先做空间转录组测序,再对应病理图像;而Path2Space则是通过AI学习病理图像与空间转录组之间的对应关系,直接从图像反推基因的空间表达。

这就像教会了AI一门"翻译语言",让它能把病理切片上的细胞形态"翻译"成对应的基因表达谱。

第一步:给AI装上"病理慧眼"


要让AI学会"看"病理切片,首先需要高质量的训练数据。

研究团队使用了Bassiouni等人的乳腺癌空间转录组数据集,包含了来自14名患者的22张组织切片,共56,567个匹配的"图像斑点-基因表达"对。

每个斑点对应组织上一个55微米直径的区域,大约包含1-10个细胞。

研究团队没有从零开始训练图像识别模型,而是采用了CTransPath——一个专门为数字病理设计的基础模型。

这个模型已经在数百万张病理切片上进行了预训练,能精准识别切片上的细胞核形态、细胞质特征和组织结构。

第二步:让AI学会"基因翻译"


有了图像特征,下一步就是把这些特征转化为基因表达谱。

研究团队设计了一个简单但高效的多层感知机(MLP)神经网络,它能将CTransPath提取的768维图像特征,映射为14,068个基因的表达量。

这14,068个基因是在至少5%的斑点中检测到的,覆盖了乳腺癌中绝大多数有功能的基因。

为了提高预测的准确性,研究团队做了一个关键的技术选择:使用对数转换后的原始计数作为预测目标,而不是常用的每百万计数(CPM)标准化。

实验证明,这个选择让模型能多预测5000多个相关系数超过0.4的基因,并且能更准确地捕捉细胞类型特异性的表达信号。

第三步:给预测结果"降噪美颜"

空间转录组数据本身存在一定的技术噪声,就像拍照时的颗粒感。

为了让预测结果更清晰,研究团队引入了空间平滑技术:将每个斑点的预测表达值与它周围8个相邻斑点的表达值取平均。

这个简单的操作显著提升了预测性能,让相关系数超过0.4的基因数量从1376个增加到了6629个。

第四步:从基因表达到生物学解读

Path2Space的输出不仅仅是基因表达矩阵,它还能进行一系列下游生物学分析:

  • 推断每个区域的细胞类型组成(癌细胞、淋巴细胞、基质细胞等)


  • 识别空间上连贯的转录组区域


  • 发现与生存和治疗反应相关的空间生物标志物

整个流程完全自动化,只需要输入一张H&E切片,就能在几小时内得到完整的空间转录组分析结果。

二、从基准测试到临床应用的全面突破

基准测试

为了客观评估Path2Space的性能,研究团队将其与16种最新的空间转录组预测模型进行了头对头比较。

所有模型都在相同的数据集上训练和测试,使用统一的评估标准。

Path2Space在交叉验证和三个独立外部验证队列(HEST、Martinez等人、HTAN)中均取得了最高的中位数皮尔逊相关系数(PCC),显著优于所有其他方法(p<0.001)。

即使不使用空间平滑后处理,Path2Space仍然是表现最好的方法之一。


更重要的是,Path2Space是唯一能同时预测14,068个全基因组基因的模型。

当研究团队将表现最好的前5种模型重新训练以预测所有基因时,Path2Space仍然以绝对优势领先。

一个特别值得注意的发现是:Path2Space虽然只在新鲜冷冻(FF)切片上训练,但在福尔马林固定石蜡包埋(FFPE)切片上的表现与新鲜冷冻切片几乎没有差异(中位数PCC:FF=0.35,FFPE=0.37,p=0.69)。

这意味着Path2Space可以直接应用于医院里保存的数百万份FFPE存档切片,解锁了一个巨大的临床数据宝库。

从预后分层到治疗反应预测

Path2Space的真正价值在于它能解决临床实际问题。研究团队将其应用于多个大规模乳腺癌临床队列,验证了它在预后分层和治疗反应预测方面的卓越能力。

发现三个全新的乳腺癌空间亚型

研究团队将Path2Space应用于TCGA数据库的976例乳腺癌样本,对每个样本的空间转录组特征进行了系统分析。

他们首先将每个切片分成平均6.6个空间上连贯的转录组区域,然后将这些区域聚类成11个共享的空间转录组簇。

基于这11个簇的组成比例,研究团队将乳腺癌患者分成了三个具有显著生存差异的空间亚型(SpatioTypes):

  • 增殖富集型:以高增殖活性为特征,与较高的病理分期相关


  • 免疫调节型:具有高水平的免疫细胞浸润,预后最好


  • 免疫失活型:免疫活性极低,预后最差

生存分析显示,免疫失活型患者的疾病-free生存风险是免疫调节型患者的2.04倍(p=0.002),即使在调整了年龄和肿瘤分期后,这种差异仍然显著。

这个结果在独立的METABRIC队列中得到了完美验证(HR=5.45,p<0.001)。

这是首次基于空间转录组特征对乳腺癌进行大规模预后分层,它揭示了传统分子分型无法捕捉的肿瘤异质性,为更精准的风险评估提供了新的依据。

更准确地预测曲妥珠单抗治疗反应

曲妥珠单抗是HER2阳性乳腺癌的标准靶向治疗药物,但只有约50%的患者能达到病理完全缓解(pCR)。

传统上,医生通过检测HER2的平均表达水平来筛选适合曲妥珠单抗治疗的患者,但这种方法的预测效果并不理想。

Path2Space带来了一个全新的视角:HER2表达的空间异质性比平均表达水平更能预测治疗反应。
研究团队定义了一个名为SPAND(空间邻域多样性)的指标,用来衡量HER2表达在局部区域的变异程度。

他们发现,HER2 SPAND越高的患者,对曲妥珠单抗的反应越好。在四个独立的曲妥珠单抗治疗队列中,HER2 SPAND预测pCR的AUC分别达到了0.80(TransNEO)、0.69(PBCP)、0.72(IMPRESS)和0.83(Cedars-Sinai),显著优于传统的平均HER2表达量。

特别是在HER2高表达的患者中,SPAND的优势更加明显:在TransNEO队列中,SPAND的AUC达到了0.89,而传统的bulk RNA-seq HER2表达只有0.65。


为什么空间异质性会影响治疗反应?

研究团队给出了一个合理的解释:曲妥珠单抗不仅能直接杀死HER2高表达的癌细胞,还能通过抗体依赖的细胞介导的细胞毒性(ADCC)作用激活免疫系统。

在高SPAND的肿瘤中,HER2高表达的细胞与HER2低表达的细胞混合在一起,激活的免疫细胞可以同时杀死周围的HER2低表达细胞,从而达到更好的治疗效果。

超越传统测序的化疗反应预测

化疗是乳腺癌治疗的重要组成部分,但同样存在显著的个体差异。

研究团队使用11个空间转录组簇的比例作为特征,训练了一个简单的逻辑回归模型来预测化疗反应。
结果显示,这个模型在TransNEO队列的交叉验证中AUC达到了0.75,在外部验证队列PBCP和IMPRESS中分别达到了0.89和0.74。

它不仅优于直接从图像特征预测和从推断的bulk表达预测的方法,还超越了五个已发表的H&E-based化疗反应预测模型。

更令人惊喜的是,Path2Space的预测准确性与昂贵的bulk RNA-seq相当甚至更好。这意味着,未来医生只需要一张常规的H&E切片,就能准确预测患者对化疗的反应,从而避免不必要的治疗和副作用。

三、从病理切片到精准医疗的新范式

解锁全球数十亿份存档病理数据

全球医院里保存着数十亿份FFPE病理切片,这些切片记录了无数患者的疾病历程和治疗结果,是一座巨大的医学宝库。

但在Path2Space出现之前,我们只能从这些切片中获取形态学信息,它们蕴含的丰富分子信息几乎完全被浪费了。

Path2Space让我们能够回溯分析这些存档切片的空间转录组特征,发现新的生物标志物和治疗靶点。

这将极大地加速生物标志物的发现和验证过程,因为我们不需要再花费数年时间和巨额资金去收集新的样本和进行测序。

让精准医疗变得触手可及

传统的精准医疗依赖于昂贵的分子检测,这使得它在很多地区无法普及。

而Path2Space只需要一张常规的H&E切片,成本仅为几十美元,却能提供与昂贵的分子检测相当甚至更好的预测能力。

这意味着,即使在医疗资源有限的地区,患者也能享受到精准医疗的好处。

医生可以根据Path2Space的分析结果,为每个患者制定个性化的治疗方案,提高治疗效果,减少不必要的医疗支出。

推动肿瘤生物学研究进入"大空间时代"

过去,由于空间转录组技术的高成本,大多数研究只能在几十例样本中进行,难以发现具有统计学意义的生物学规律。

Path2Space使得在成千上万例样本中进行空间转录组分析成为可能,这将推动肿瘤生物学研究进入一个全新的"大空间时代"。

我们将能够系统地研究不同癌症类型的空间转录组特征,发现新的肿瘤亚型和治疗靶点,深入理解肿瘤微环境的空间组织和细胞间相互作用。

这些研究将为癌症的预防、诊断和治疗提供全新的思路和方法。

从乳腺癌到全癌种,从转录组到多组学

Path2Space的应用前景远不止于乳腺癌。

研究团队指出,这个框架可以很容易地扩展到其他癌症类型,只需要用相应癌症类型的空间转录组数据重新训练模型即可。

此外,Path2Space还可以扩展到其他空间组学技术,如空间蛋白质组和空间甲基化组。

例如,在胶质母细胞瘤中,MGMT启动子甲基化是预测替莫唑胺治疗反应的关键生物标志物,但它的空间分布及其与治疗抵抗的关系还不清楚。

用Path2Space从H&E切片预测MGMT甲基化的空间分布,将为胶质母细胞瘤的精准治疗提供重要信息。

随着更高分辨率的空间转录组技术(如Visium HD)的出现,Path2Space还可以进一步提高分辨率,预测单细胞甚至亚细胞水平的基因表达。这将让我们对肿瘤的微观世界有更深入的了解。


责任编辑:肿瘤资讯-徐悦  
排版编辑:肿瘤资讯-扎依尔


免责声明
本文仅供专业人士参看,文中内容仅代表罗小罗同学订阅号立场与观点,不代表肿瘤资讯平台意见,且肿瘤资讯并不承担任何连带责任。若有任何侵权问题,请联系删除。