“谈癌色变”的时代远未过去,早筛早诊早治已成为对抗癌症的利器。DNA甲基化标志物悄然登上舞台,但不同标志物用于不同种癌。能否找到不同癌症共有的甲基化标志物,从而将它们一网打尽。复旦大学生物医学研究院、上海市公共卫生临床中心于文强课题组深耕DNA甲基化研究二十余年,鉴定了一类或可适用于全部癌症的甲基化标志物——全癌标志物(Universal-Cancer-Only Marker,UCOM)。
继2019年在Cancer Research杂志(2020 IF=12.701)发表了第一个全癌标志物HIST1H4F,近期他们联合上海奕谱生物、上海交通大学医学院附属国际和平妇幼保健院、复旦大学附属妇产科医院、复旦大学附属金山医院等在Clinical and Translational Medicine杂志(2020 IF=11.492)发表了第二个全癌标志物PCDHGB7。以下深入解读全癌标志物的发现历程及其对于癌症早期检测的重要意义。
图1. 新的全癌标志物PCDHGB7
DNA甲基化标志物的时代已经到来
2020年全球新增癌症患者约1930万,因癌症死亡约1000万人 [1],全球约1/6的死亡由癌症造成 [2]。中国是癌症大国,2020年癌症发病人数约457万人,死亡约 300万人 [1] ,平均每天超过1万人被确诊为癌症。值得警惕的是,癌症并没有因为现代医学的发展而式微;相反,十多年来,恶性肿瘤的发病率每年保持约3.9%的增幅,死亡率每年保持2.5%的增幅 [3]。我国每年恶性肿瘤的医疗花费超过 2200 亿元,已经成为家庭和医保基金的重要支出,而癌症的预防、筛查和早诊早治是防控癌症最经济有效的途径。
图2. 2010-2020 年国内癌症发病/死亡率持续上升
肿瘤标志物是指特征性存在于恶性肿瘤细胞,或由恶性肿瘤细胞异常产生的物质,或是宿主对肿瘤的刺激反应而产生的物质,并能反映肿瘤发生、发展,监测肿瘤对治疗反应的一类物质。研究发现,DNA上可以发生化学修饰,比如甲基化,DNA甲基化具有调控基因表达的功能。在正常细胞癌变为肿瘤细胞的进程中,DNA甲基化会发生变化,因此DNA甲基化具有成为肿瘤标志物的潜力。
尽管DNA甲基化可用于肿瘤的早筛、早期诊断、疗效预测、预后判断等,但是其应用还存在一些挑战。首先,针对不同的癌症类型,往往有不同的肿瘤标志物;换言之,如果我们想要做全身的检查,需要检测多个标志物;其次,哪怕对于特定的肿瘤,通常需要多个甲基化标志物的联合检测,有时候甚至需要依赖于一些复杂的算法;另外,目前的甲基化检测主要依赖于焦磷酸测序或高通量测序(NGS),两者均需要价格昂贵的仪器。这些问题限制了甲基化标志物的现实应用。
全癌标志物的发现
人类的遗传信息主要储存在由A、G、C、T组成的DNA中。人类基因组中约有30亿个碱基对。DNA甲基化主要发生在CpG位点中的C上,人类基因组中约有2800万个CpG位点。其中正常的细胞中60%~80%的CpG位点被甲基化,而细胞癌变后,只有20%~50%的CpG位点被甲基化,换言之细胞在癌变过程中有10%~60%的CpG位点,即280~1680万个CpG位点的甲基化可能发生变化。
要想全面了解人类基因中的DNA甲基化的全景,通常需要借助全基因组DNA甲基化测序技术,然而这是一场“富人的烧钱游戏”。为何会这么烧钱,一方面是因为要测的位点很多,另一方面则归咎于测序的策略:DNA需要经过重亚硫酸盐处理,没有甲基化的C转变成了 T,构成DNA的序列就剩下了A、T、G 三个碱基;而测序后的数据需要与人类参考基因组比对。由于处理后的基因组复杂度已经降低,致使很多序列无法比对回去,这部分无法比对的数据就白测了。最早的全基因组DNA甲基化检测的比对率只有不到30% [4],也就是说你花费了 100元钱,只有30元钱是有用的,那70元钱测到的序列因为“无家可归”而被白白扔掉了,造成了数据的浪费,人力物力财力的浪费。
图3. 人类基因组DNA甲基化概况
为了突破传统DNA甲基化测序方法中比对率低的瓶颈,我们课题组经过8年的攻关,借助双端测序,即测序的一端是基因组原序列,另一端是转化后表观序列,比对率低问题迎刃而解。我们将这种全基因组 DNA 甲基化检测方法命名为 GPS(Guide Positioning Sequencing),即“导航定位测序” [5],目前已经获得国内和国际专利。借助拥有自主知识产权的GPS技术,我们测的更多更准,一系列指标显著优于全基因组甲基化检测“金标准”WGBS(whole-genome bisulfite sequencing)。关于GPS测序技术的深入解读,详见《给DNA甲基化检测装上GPS,看肿瘤细胞如何变花样》[6]。
图4. GPS 比 WGBS 具有更高的比对率
在全基因组甲基化的分析过程中,我们注意到很多组蛋白基因在多种肿瘤中都呈现高甲基化。这引起了我们的警觉,这些位点是多种肿瘤的共有特征?是否具有开发为肿瘤标志物的潜力呢?
第一个全癌标志物HIST1H4F及其应用
证实HIST1H4F为全癌标志物
真核生物细胞中组蛋白包括四种核心组蛋白H2A、H2B、H3、H4和一种连接组蛋白H1。DNA双链缠绕在两分子的H2A、H2B、H3、H4组成的八聚体上,组装成染色质的基本单位核小体,H1结合于两个核小体之间。生命科学的研究者也会对种类繁多的组蛋白修饰十分熟悉,但组蛋白基因却鲜有人问津。
目前已发现的人类组蛋白基因共有85个,包括68个复制依赖性组蛋白基因与17个非复制依赖性组蛋白变体基因。大部分组蛋白基因在染色体上成簇分布。人类染色体上主要有2个组蛋白基因簇,分别是组蛋白基因簇1(位于Chr6p21)与组蛋白基因簇2(位于Chr1q21),其他的组蛋白基因散在分布于染色体其他位置。
为了验证GPS揭示的组蛋白基因的肿瘤中的高甲基化,我们在TCGA数据库的17种肿瘤的7000多例样本中分析发现,许多组蛋白基因确实在多种肿瘤中发生异常高甲基化,尤其是HIST1H4F基因。
图5. 在17种肿瘤中85种组蛋白基因的甲基化状态
CESE, 宫颈癌; HNSC, 头颈部肿瘤; ESCA, 食管癌; COAD, 结肠腺癌; READ, 直肠腺癌; PAAD, 胰腺癌; STAD, 胃腺癌; KIRC, 肾透明细胞癌; THCA, 甲状腺癌; LIHC, 肝癌; PRAD, 前列腺癌; BLCA, 膀胱尿路上皮癌; LUNG, 肺癌; BRCA, 乳腺癌; UCEC, 子宫内膜癌; CHOL, 胆管癌; SKCM, 黑色素瘤
随后我们将目光聚焦到HIST1H4F基因。我们发现在分析的17种肿瘤中HIST1H4F均显著高甲基化。为了进一步验证TCGA数据库中的结果,我们收集到了8种肿瘤的临床样本,发现在所有肿瘤中HIST1H4F高甲基化均得到了验证。由此,HIST1H4F是真正意义上的肿瘤共有标记物,我们将之命名为“全癌标志物” (Universal-Cancer-Only Marker,UCOM)。
图6. HIST1H4F基因在8种肿瘤的临床样本中均异常高甲基化
HIST1H4F高甲基化用于肺癌早期检测
肺癌是全球死亡人数最多、发病人数第二多的癌症,肺癌的早期检测对于提高肺癌患者的生存率至关重要。肺泡灌洗液(Bronchoalveolar Lavage Fluid,BALF)是利用支气管镜向支气管肺泡中注人生理盐水灌洗后收集吸出的液体,通过检查肺泡灌洗液中的组分,可进行多种疾病的诊断,如肺部感染、肺癌等。为了验证HIST1H4F能否用于肺癌的早期检测,我们收集了206例肺癌患者与59例肺部良性疾病患者的肺泡灌洗液。
结果显示,HIST1H4F基因在肺癌患者的肺泡灌洗液样本中显著高甲基化。在训练集中,HIST1H4F高甲基化的检测特异性高达96.7%,检测敏感性87.0%;在验证集中,检测特异性高达96.5%,敏感性87%。这说明HIST1H4F高甲基化在肺癌早期检测中具有非常高的潜在临床应用价值。
图7. 在肺灌洗液中HIST1H4F基因高甲基化具有很高的临床应用价值
BLD, 良性肺病; LUAD, 肺腺癌; LUSC, 肺鳞癌; SCLC, 小细胞肺癌.
以上研究揭示HIST1H4F高甲基化为第一个“全癌标志物”(Universal-Cancer-Only Marker,UCOM),并验证了其在肺癌早期检测中的优异表现。相关研究于2019年12月发表于国际权威期刊Cancer Research [7]。
在发现HIST1H4F的过程中,我们还注意到了一类在肿瘤中高甲基化的基因——PCDH家族基因。通过进一步的筛选和验证,我们发现其中的PCDHGB7基因在多种肿瘤中高甲基化,于是我们将目光投向了PCDHGB7。
第二个全癌标志物PCDHGB7及其应用
论证PCDHGB7为全癌标志物
为了系统探索PCDHGB7是否可以作为新的全癌标志物及其临床应用,我们联合上海奕谱生物科技、上海交通大学医学院附属国际和平妇幼保健院、复旦大学附属妇产科医院、复旦大学附属金山医院等几家单位进行了全面的探索。证实PCDHGB7确实是一个新的全癌标志物,并可用于宫颈癌早期检测。相关研究于2021年6月底发表于Clinical and Translational Medicine杂志(2020 IF=11.492)[8]。
首先我们利用TCGA数据库(7114例样本)数据进行分析,发现与非癌组织相比,在17种肿瘤中PCDHGB7均显著高甲基化。
图8. 在17种肿瘤中PCDHGB7均显著高甲基化
为了进一步验证这个结果,我们收集到了13种组织类型的临床样本(727例),发现在所有检测的癌症类型中,PCDHGB7均显著高甲基化。这些结果证实PCDHGB7是一个新的全癌标志物。
图11. 在13种肿瘤的临床样本中PCDHGB7均显著高甲基化
PCDHGB7用于宫颈癌早期检测的可行性论证
有了新的标志物,我们要解决什么问题呢?宫颈癌是长期以来困扰女性的癌症,全球每年新增宫颈癌超过50万,每年死亡超30万。现行的宫颈癌筛查主要依赖于高风险的HPV检测和ThinPrep 细胞学检测(ThinPrep cytologic test,TCT),但它们的敏感性存在一定局限性,尤其对于早期的癌前病变检测能力不足。
图12. 宫颈癌进展的四个阶段
首先,我们收集了四种宫颈组织,包括病理诊断阴性(非癌)、两种癌症病变(低级别病变LSIL、高级别病变HSIL)和宫颈癌,检测了PCDHGB7 在四种组织中的甲基化水平,发现PCDHGB7在癌前病变阶段,具体为高级别病变阶段,就已经显著高甲基化;而且PCDHGB7还可以进一步区分开高级别病变和低级别病变。
图13. PCDHGB7在癌前病变已经高甲基化
优化后的MSRE-qPCR检测PCDHGB7甲基化
为了让PCDHGB7更好地应用于宫颈癌的早期检测,我们首先对方法学进行了优化。焦磷酸测序是特定位点DNA甲基化检测的“金标准”,然而需要依赖昂贵的焦磷酸测序仪,一定程度上阻碍了其临床应用。考虑到临床一线大部分已经配备了qPCR仪,如果可以使用qPCR对DNA甲基化进行定量检测,那将大大增强DNA甲基化检测的适用性。奕谱生物的在DNA甲基化方面有丰富的经验,经过长时间的探索,优化了一套基于限制性内切酶联合qPCR的技术——ME-qPCR,使得可以轻松地对特定位点的DNA甲基化实现精准检测。数据显示,优化版的ME-qPCR在低甲基化(10%~20%)的区域有更好的区分度。
图14. MSRE-qPCR在低甲基化区域有更好的区分度
检测宫颈分泌物中PCDHGB7用于宫颈癌早筛
为了全面评估PCDHGB7在宫颈癌中的表现,我们收集了宫颈刮片并利用ME-qPCR检测PCDHGB7。在宫颈刮片中也得到与此前相似的结论,PCDHGB7在高级别病变阶段HSIL就可以被鉴定出来,进而可以有效地干预,提高患者的生存率。利用高甲基化的PCDHGB7作为标志物,发现检测高级别病变HSIL的ROC曲线下面积AUC为0.87,检测宫颈癌的AUC为0.97,检测高级别病变HSIL或宫颈癌的AUC为0.88。AUC是评价标志物的效能的重要指标,越接近1表示其性能越优异。由此可见,PCDHGB7对于宫颈癌的早期检测是一个非常有效的标志物。
我15. 初步评估PCDHGB7在宫颈癌早期检测中的效力
在训练集中检测后,我们又在独立的验证集中进行验证,并计算了其敏感性和特异性。对于检测高级别病变HSIL,特异性为88.7%,敏感性为73.7%;而对于检测宫颈癌,特异性同为88.7%,但敏感性提升至100%。这些结果再次证实,PCDHGB7对于宫颈癌的早期检测非常有效。
图16. PCDHGB7是个非常有效的宫颈癌标志物
宫颈分泌物开创宫颈癌居家筛查新范式
宫颈刮片是一种微创的样本来源,而宫颈分泌物是一种无创的样本,女性可自行采样。那么,能够通过检测宫颈分泌物中的PCDHGB7实现宫颈癌或癌前病变的居家采样检测呢?我们收集了273例不同阶段的宫颈分泌物,发现在宫颈分泌物中也可以检测到高级别病变HSIL。对于宫颈癌而言,在90.4%特异性的情况下,敏感度高达90.9%,说明宫颈分泌物中PCDHGB7高甲基化也可用于宫颈癌的检测。
图17. 检测宫颈分泌物中PCDHGB7具有检测宫颈癌的潜力
全癌标志物的思考
DNA甲基化标志物受到越来越多的关注,各种类型的标志物层出不穷,但如前所述,不同类型的肿瘤有不同的标志物,同一种肿瘤有好多种标志物,让人眼花缭乱。早在2000年,麻省理工的Robert Weinberg就总结了癌症的六大特征 [9];2011年,他进一步将癌症的特征总结为10种 [10],癌症的十大特征已成为全球癌症研究者的共识和理论基础。既然不同类型的癌症有一系列共同的特征,那么是否也存在共同的标志物呢?这是我们的基本设想。
全癌标志物的发现证实了我们的设想,我们不需要通过多种标志物的排列组合或者复杂的建模,用一种标志物检测多种肿瘤,实现一次检测可以将肿瘤一网打尽。全癌标志物研究才刚刚开始,有一系列问题尚待解决,比如:1)除了这两个全癌标志物,还有多少个呢? 2)全癌标志物是否提示癌症具有统一的发病机制呢?对这些问题的回答,就进一步推动肿瘤标志物研究的进展,最终让患者受益。
全癌标志物的研究大幕已经拉开,技术方法已经成熟,让我们期待它在癌症早期检测中大放异彩!
参考资料:
1. Sung, H., et al., Global cancer statistics 2020: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries. CA Cancer J Clin, 2021. n/a(n/a).
2. Ferlay J, et al. Global Cancer Observatory: Cancer Today.Lyon: International Agency for Research on Cancer;2020. Available from: https://gco.iarc.fr/today.
3. 郑荣寿, et al., 2000—2014年中国肿瘤登记地区癌症发病趋势及年龄变化分析. 中华预防医学杂志, 2018. 52(6): p. 593-600.
4. Yong, W.S., F.M. Hsu, and P.Y. Chen, Profiling genome-wide DNA methylation. Epigenetics Chromatin, 2016. 9: p. 26.
5. Li, J., et al., Guide Positioning Sequencing identifies aberrant DNA methylation patterns that alter cell identity and tumor-immune surveillance networks. Genome Res, 2019. 29(2): p. 270-280.
6. 徐鹏 and 于文强, 给DNA甲基化检测装上GPS,看肿瘤细胞如何变花样. 自然杂志, 2019. 41(05): p. 325-334.
7. Dong, S., et al., Histone-Related Genes Are Hypermethylated in Lung Cancer and Hypermethylated HIST1H4F Could Serve as a Pan-Cancer Biomarker. Cancer Res, 2019. 79(24): p. 6101-6112.
8. Dong, S., et al., Hypermethylated PCDHGB7 as a universal cancer only marker and its application in early cervical cancer screening. Clin Transl Med, 2021. 11(6): p. e457.
9. Hanahan, D. and R.A. Weinberg, The hallmarks of cancer. Cell, 2000. 100(1): p. 57-70.
10. Hanahan, D. and Robert A. Weinberg, Hallmarks of Cancer: The Next Generation. Cell, 2011. 144(5): p. 646-674.