您好,欢迎您

【Nat. Commun.】迄今最大规模!超过10,000例中国实体瘤患者基因组研究数据分析

2022年09月21日
整理:研值圈
来源:研值圈

癌症的发病率和死亡率仍然是中国公共卫生的主要挑战,中国每年有超过200万癌症死亡病例。近年来,随着精准医学的发展,癌症正在向基因组学、精准肿瘤学、个体化诊疗等方向快速发展。
近期,中山大学孙逸仙纪念医院王铭辉教授团队Nature Communications刊发了一项针对亚洲癌症人群基因组特征的研究成果。该成果从基因层面将中国人群与西方人群突变特征的异同进行了系统分析和全面对比,全面阐述了东西方癌症患者的不同临床基因组特征,是截至目前最大规模的亚洲癌症人群基因组全面分析。

图片10.png

不同种族人群之间存在着癌症基因改变的差异,因此种族因素会影响癌症的诊断和治疗。虽然目前已经在西方人群中报告了多项大规模NGS泛癌种研究,但一直以来关于亚洲人群的癌症基因组研究仍然是空白。

在本项研究中,研究者收集了超过10,000例中国实体瘤患者的组织和血液样本,并全面阐述了东、西方肿瘤患者的不同基因组特征。

队列描述

本研究共收集了11,553例中国患者的肿瘤标本和相应的外周血标本,包括25种主要癌症类型和100多种亚型。排除肿不合格的样本后,最终成功测序了10,194例 (88%) 肿瘤样本。

该队列中共包括31个民族,其中汉族占比最大(92%,9,382/10,194)。本研究中的大多数患者来自中国东部和南部省份(分别为41%和29%)。

肿瘤分期方面,55%(5,652/10,194)的患者处于晚期阶段(Ⅲ/Ⅳ期),而35%(3,579/10,194)为早期阶段(癌前或Ⅰ/Ⅱ期)。在整个队列中,大多数(76%)患者未接受过治疗,既往接受过治疗的患者占16%。其余8%的患者没有确定或可用的治疗史信息。

主要肿瘤类型为非小细胞肺癌(NSCLC;20%)、结直肠癌(CRC;12%)、肝细胞癌(LIHC;11%)、胃癌(GC;8%)、食管癌(ESCA;6%)、软组织肉瘤(STS;6%)、肝内胆管癌(ICC;5%)、胰腺癌(PAC;5%)、肝外胆管癌(ECC;3%),和乳腺癌(BRCA;3%)(图1)。

图片11.png

图1. 10,194例患者的肿瘤类型分布

突变情况和基因融合

对10,194个样本在450个基因上的DNA测序数据进行分析,研究者共检测到80,703个单核苷酸变异(SNV)和插入和缺失(InDels)、19,192个截断变异、17,779个基因扩增、1,688个基因纯合性缺失和3,111个基因融合/重排。

对实体瘤中显著突变的癌症相关基因进行分析发现,最常改变的基因是TP53(58%的病例)、KRAS(18%)、TERT(14%)、EGFR(13%)、APC(13%)、CDKN2A(12%)和PIK3CA(11%)。最常见的突变为KRASG12、EGFRL858和TP53R273(图2)。

图片12.png

图2. 常见肿瘤类型中基因改变

CNV的后续分析显示转移样本中CDKN2A/B缺失、SMAD4缺失、ERBB2扩增、EGFR扩增和MYC扩增的频率较高,泛癌水平的原代样本中染色体11q13.3(CCND1/FGF3/FGF4/FGF19)扩增。同时,发现与其他肿瘤类型相比,ERBB2扩增和染色体11q13扩增分别富集于乳腺癌 (BRCA)(24 vs. 2%;FDR =7.645E-105)和ESCA(43 vs. 4%;FDR =3.553E-301)。

此外,研究者试图研究实体瘤中基因融合的特征,共确定了513个融合事件,包括本队列中的31个驱动基因。如图3,ALK(n=139)、ROS1(n=51)、RET(n=50)、FGFR2/3(n=50)、NTRK1/3(n=30)和BRAF(n=12)等基因的融合事件在各肿瘤类型中广泛发生,而其他如 EWSR1和TFE3在某些肿瘤类型中富集[肉瘤(软组织肉瘤或STS,和骨肉瘤)和KIRC]。仅在特定肿瘤类型[LIHC,随后诊断为纤维板层肝细胞癌(FL-HCC)]中检测到PRKACA融合。

图片13.png

图3. 基因融合事件在癌型中的分布

此外,与Quiver数据库相比,发现了罕见报告的驱动基因融合伴侣,包括GRIK2-ROS1、PARP12-BRAF、KIF13B-MET和LRRC28-NTRK3等激酶基因的多个融合以及KIF5B-ALK和 EML4-ALK的融合外显子。

临床特征和相关改变基因

为了进一步揭示与中国癌症患者临床特征相关的体细胞改变,研究者对基因组谱的肿瘤类型分布和6个临床特征进行了综合分析,包括年龄、性别、肿瘤分期、吸烟史(仅在NSCLC、SCLC和HNC中)、治疗和样本类型(原发性与转移性/复发性)(图4a,b)。

图片14.png

图4. a.不同癌症类型中在六种临床特征上出现差异突变的基因数量;b.不同癌症类型中在临床特征上出现差异突变的基因以及差异方向

一般而言,在CRC和NSCLC中观察到分布的临床特征相关基因组差异。在CRC中,年轻和早期患者与老年和晚期患者相比,差异突变基因的数量分别为270和100,这可能与高突变亚型的比率显著较高一致,如年轻和早期CRC的微卫星高度不稳定(MSI-H)和POLE相关CRC(具有微卫星稳定性 [MSS]、高突变负荷和无活性的POLE突变)(FDR< 0.05)。

在NSCLC中,突变基因的频率受性别和吸烟史的显著影响。值得注意的是,在本研究队列中,性别和吸烟史不是独立因素,因为大多数不吸烟者为女性。结果发现,患有早期NSCLC的女性不吸烟者携带更多的EGFR突变,而患有晚期NSCLC的男性吸烟者伴有更多的TP53、CDKN2A、PIK3CA和KRAS突变的特征,这与最近的报道一致。而且,年轻的女性胃癌患者有更多的CDH1突变。相反,老年胃癌患者倾向于TP53、NOTCH1和FAT4有更多的突变。此外,年轻的LIHC、KIRC和骨肉瘤患者分别携带TP53、TFE3和VEGFA突变,而老年的LIHC、HNC和STS患者分别携带CTNNB1、TERT和 TP53 突变(图2b,FDR < 0.05)。

体细胞基因突变频率的比较

为了在全球范围内评估中国患者的癌症基因组特征,研究者将基因组改变与纪念斯隆凯特琳癌症中心(MSK)IMPACT研究中已发表的最大的癌症基因组研究进行了比较,包括10,366例病例,多为晚期癌症标本。在晚期OrigiMed(OM)队列(aOM,n=2820)和MSK队列(n=2820)的15种相当的晚期肿瘤类型中比较了两个平台共有的266个基因。

为了限制比较的偏倚,研究者将两个队列的NSCLC细分为肺腺癌(LUAD)和肺鳞状细胞癌(LUSC),并使用PSM(倾向评分匹配)平衡不同队列中的可用临床混杂因素,如原发性/转移/复发肿瘤标本、采样方法、性别和吸烟。总体而言,只有12种肿瘤类型:基因对在aOM队列和MSK队列之间呈现基因变异频率的显著差异(FDR<0.05),提示MSK队列中aOM队列中最常见突变基因的频率和肿瘤类型分布高度一致,如CRC:APC(71.9 vs. 72.7%,FDR=1)和SCLC:RB1(84.2 vs.71.1%,FDR=1)。两个队列之间的显著差异主要见于肺腺癌和肝胆肿瘤,如LUAD:EGFR、ICC:KRAS。此外,一些基因融合和CNVs在aOM队列和MSK队列之间也显示出差异。

为了进一步证实在晚期癌症中观察到的OM和MSK研究之间的异同,研究者还将aOM数据与来自癌症基因组图谱研究(aTCGA)的晚期病例基因组数据进行了比较。由于异质性方法(包括检测平台、算法和报告变异标准),在比较中考虑了SNV、InDels和截断突变。在9种可比较的肿瘤类型和266个基因中,共确定了6种肿瘤类型:aOM队列(n=1008)和aTCGA队列(n=1008)之间存在显著差异的基因对(FDR<0.05),其中3种不同的肿瘤类型:基因对与aOM队列和MSK队列之间的比较呈现一致的变化趋势,包括与其他两个队列相比,aOM队列中CRC:TP53和LUAD:EGFR的频率较高,LUAD:KEAP1的频率较低。总之,这些多重比较在最大程度上揭示了这些队列中基因组改变的相似性和与众不同。

免疫治疗相关生物标志物

接下来,研究者分析了肿瘤突变负荷(TMB)在肿瘤类型中的分布。尽管在常规临床实践中评价TMB的算法尚未达成共识,但已证明单个TMB可预测免疫治疗后的患者结局。在这里,研究者根据KEYNOTE-158研究的标准确定了高TMB(TMB-H)和低TMB(TMB-L)两类。如图5,与MSK队列相比,aOM队列中近一半肿瘤类型的中位TMB值不同。

图片15.png

图5. aOM队列(淡红色)和MSK队列(淡蓝色)之间TMB的肿瘤类型特异性分布(不包括TMB为0的样本)

总体而言,aOM队列中TMB分布的整个模式与MSK队列相似,以“尾部”为特征,包括119个TMB≥40的样本(图6)。

图片16.png

图6. aOM队列(淡红色)和MSK队列(淡蓝色)之间的TMB密度分布

研究者随后进一步分析了队列中186例携带MSI-H的样本的分布,发现MSI-H患者的总体比例为2%,主要分布在CRC(55%,102/186)。以往的研究认为,TMB和PD-L1表达是两个独立的生物标志物,在大多数癌症亚型中PD-L1表达与TMB无明显相关性。然而,由于MSI-H和TMB-H最近被认为是免疫检查点阻断(抗PD-1/PD-L1)应答的生物标志物,研究者在OM队列的2,723例肿瘤中通过免疫组化(IHC)染色评估了TMB和MSI与PD-L1表达的联合相关性。至少有一个MSI-H、TMB-H或PD-L1阳性的样本的总体比例为30.3%(824/2723)。SCLC 携带至少一种MSH-H、TMB-H或PD-L1阳性的样本比例最高(48%;24/50),其次是NSCLC(46%;298/648)和ESCA(34%;80/235)提示高比例的中国肺癌患者可从免疫治疗中获益的可能性。

此外,最近的证据表明,PD-L1/CD274基因的体细胞扩增是实体瘤免疫治疗的反应生物标志物,即使在没有MSI-H、PD-L1过表达或TMB-H20的情况下也是如此。在此,研究者在OM队列中共鉴定出1%的CD274扩增(拷贝数≥6)的肿瘤,该比例与之前的研究一致。再者,在30例CD274扩增的可评价样本中检测PD-L1表达,PD-L1阳性率为70%。随后,研究者还检测了85例CD274扩增样本的突变情况,发现CD274扩增与相邻PDCD1LG2和JAK2扩增同时发生(分别为89%和82%),这是染色体9p24.3-9p22.2中附近的基因,与癌症晚期和治疗结局较差相关。

在这些肿瘤中也观察到高频率的TP53突变(78%)。

临床可操作的改变

在纳入和不纳入TMB-H作为免疫治疗预测生物标志物的情况下,OncoKB可操作性的比例分别为64%的患者(n=6498携带至少一个具有可变最高临床证据水平的基因组变异,level-1,32%;level-2,1%;level-3A,1%;level-3B,13%;level-4,16%,如图7)和58%(n=5899,level-1,17.9%;level-2,1.5%;level-3a,1.5%;level-3B,17.8%;level-4,19.2%)。通过去除TMB-H样本,level-1的数量减少到18%。

图片17.png

图7. 根据OncoKB将变体分配到不同的临床可操作性水平

为了进一步研究OM队列中其余3696例无OncoKB 1~4级变异的患者是否具有可操作的生物标志物,研究者分析了PD-L1的表达。发现其中4%的患者表现出至少PD-L1阳性,提示这些患者即使肿瘤不符合1~4级的标准,也可能是免疫检查点抑制剂治疗的获益者。

level-1主要表现为NSCLC中TMB-H和EGFR突变,包括EGFR L858R(20%;携带该变体的肿瘤类型的样本比例)、外显子19缺失(19%)和 G719(3%)突变。其他包括NSCLC中的ALK(7%)融合、PIK3CA 突变(31%)和 BRCA 中的 ERBB2 扩增(24%)和 CRC 中的 MSI-H(8%)(图8)。

图片18.png

图8. 30种最常见的可操作变体的详细信息、相应肿瘤类型中的水平比例及其潜在的敏感药物


在可操作变异的人群水平突变方面,KRAS、EGFR和PIK3CA SNVs/InDels、ERBB2扩增和ALK融合最常见,这与MSK队列的报道一致。有趣的是,在NSCLC中,TMB-H与融合阳性呈负相关(TMB-H队列和TMB-L队列的融合频率分别为3%和13%,P=1.31E-11),主要来自ALK基因。相反,MSI-H与融合基因阳性呈正相关(MSI-H队列和MSS队列的融合频率分别为6%和1%,P=0.04),主要来自NTRK基因,这暗示了在不同类型的癌症中,患者从基于融合的靶向治疗和免疫治疗联合中的临床获益是不同的,该发现需要未来更多的研究来证实。所有这些发现均表明治疗与中国肿瘤患者的突变情况相关。

总结

总之,本研究报告了超过10,000例中国实体瘤患者的体细胞突变情况。据目前所知,这是对亚洲人群中实体瘤的最大和最全面的基因组分析。本报告为中国癌症医学发展提供了高度可靠的数据集和资源。更重要的是,该人群水平的比较分析全面揭示了中国和其他种族实体瘤人群之间体细胞改变和可操作变异的异同,对分子靶向治疗临床试验中患者的选择具有重要意义。


参考文献


Liqun Wu, Herui Yao, Hui Chen, et al;Landscape of somatic alterations in large-scale solid tumors from an Asian population;NATURE COMMUNICATIONS;(2022) 13:4264 | https://doi.org/10.1038/s41467-022-31780-9.

责任编辑:Mathilda
排版编辑:Mathilda
               
研值圈Sci Value Hub—为医疗创新贡献价值
文末.jpg