首页 > 文章详情

Nature乳腺癌特刊（7）：大数据时代的新启示

2015年11月27日

宾夕法尼亚州匹兹堡大学的药理和生物化学专家Adrian Lee一直致力于乳腺癌的研究，他认为没有任何两个乳腺癌是一模一样的，癌症的复杂性远超过我们的想象。

Lee利用基因组技术对乳腺癌患者基因组表达进行了全面的分析，并根据此结果开展了个体化治疗。目前我们已经能够从单一的样本中分析多种变量，如DNA的变化、RNA的变化和甲基化的变化，全基因组测序可以让我们更系统的了解肿瘤是如何被驱动的。

休斯敦德克萨斯大学MD 安德森癌症中心的遗传学家Nicholas Navin认为，肿瘤基因测序已经比以往任何时候都更快，更经济，更简单。目前越来越多的研究人员整理他们的测序数据并上传至像癌症基因组图谱（TCGA）这样的公用数据库，其中乳腺癌中不同组织类型的基因组分析便是由他们课题组完成的。他认为过去的挑战是如何获得数据，而现在这个问题早已经解决，眼前面临的挑战是如何进行数据处理和分析，如何解释相关的突变并与肿瘤学专家进行沟通。

在匹兹堡大学，研究人员正在努力将乳腺癌患者的分子学特征与大量的临床数据建立联系，包括年龄、种族和体重等和患病风险具有相关性的因素。他们正在为患者的分子特征与临床数据之间的联系，并依据治疗的相互作用和结果建立电子健康档案。目前已经有了一个庞大的数据基础，正努力挖掘更有针对性的数据。这就需要一方面把收集到的所有患者的电子档案综合起来，然后进一步将其中的特异性数据和其他的疾病特征结合起来进行分析。目前这些数据已经超过4万个iPhone 6的存储能力，这一切的实现需要相关的基础设施的配备升级。

一方面将测序产生的大量数据和乳腺癌患者的个体化治疗之间建立相关性需要巨大的计算能力，另一方面针对大数据需要具有能够处理复杂数据的统计人员进行深入甄别，而且这些人员同时还要具备创建灵活的计算机程序来处理庞杂数据的能力。

将数据转化为知识

面对这样的大数据，研究者们通常会建立大数据集并制定相关的查找模式。这种方法可将作为靶向药物治疗靶点的基因突变筛选出来。这种个体化医学其本质就是通过对一个病人的肿瘤进行一系列相关标志物的筛查，从中选择最佳的治疗通路来针对性的进行治疗。大数据的研究者们相信通过分析目前积累的成千上万的肿瘤数据，可以建立起相关的模型，改进目前的筛查和诊断能力，从而有针对性的给予特异性治疗方法。

Lee和他的同事们的工作体现了大数据时代是如何引领并促进人们对乳腺癌治疗模式的转变。他们主要分析了两个公共数据库- TCGA和METABRIC（乳腺癌分子分类国际联盟），该数据库包含成千上万乳腺癌患者的整套基因表达情况，诸如RNA转录和蛋白质等方面的数据。通过整理这些数据研究者得出了年轻女性患者乳腺肿瘤的分子学特征，结果发现在40岁之前被诊断的女性患者往往恶性度较高，相比老年女性更有可能罹患晚期乳腺癌并具有更差的预后和较短的生存期。

研究小组还分析了45岁以下绝经前的女性和55岁以上绝经后女性的肿瘤数据。他们称已经尽可能的分析了所有可以分析的数据，包括基因突变、RNA变异、肿瘤基因表达、DNA甲基化水平和特定基因拷贝数的变化等。结果他们发现绝经前妇女罹患肿瘤有着不同的特点，尤其是在基因表达方面。

研究人员发现越罕见的变异，往往代表着更为重要的意义，但我们要如何进行基因筛选是这个问题的根本所在。lee研究组进行了2000个基因突变的分析，发现了雌激素受体突变，而这是一种常见的乳腺癌基因突变。我们已经知道基因如何在正常细胞中行使功能，现在需要弄清楚的是，在肿瘤细胞中到底哪些基因出现了问题。”

其中一种方法是分析突变对细胞通路的影响。这意味着需要使用特定的计算方法去整合所有收集到的分子信息，然后将其分类，诸如常见的细胞生长或细胞周期通路等。研究人员可以利用这个分类信息去分析肿瘤中受影响的通路而不是简单的研究受影响的分子。在这样的设想下，加利福尼亚大学圣克鲁斯的生物信息学家Josh Stuart开发了一个集成多种已知的细胞信号转导通路的基因组数据库，基于已知基因是如何在正常细胞中行使功能的，进一步需要搞清楚的就是在肿瘤细胞中发生了什么异常改变。 Stuart 自认为这个思路非常成功。

Lee课题组在研究中使用了PARADIGM计算分析方法，该方法可将绝经前妇女中雌激素受体阳性的乳腺癌患者区分出来。同时，该方法也证明了虽然只是个别分子显示出异常变化，但他们往往都是发生在整合蛋白参与的肿瘤相关血管生成信号通路中。

上述研究在雌激素受体阳性的绝经前妇女乳腺癌患者中发现了整合素的重要性，这一结果提示这些分子可能成为治疗靶点。目前已有整合素抑制剂研发，并且其中一些抑制剂已经进入临床研究阶段。

转化性研究

大数据研究者们还通过大量肿瘤相关的数据来探寻其突变模式，由此他们发现了乳腺癌的新分类。2012年，两个研究组发表了他们对乳腺癌基因组学的数据处理方案。一个是由美国和欧洲的许多研究机构组成的TCGA研究组织，其总结的乳腺癌数据主要基于基因组学和表观遗传变异，并根据相关的重要程度分为四组。他们发现只有三个基因（TP53，PIK3CA和GATA3）在超过10%的样本中有变异，表明罕见突变是目前乳腺癌分型一个重要组成部分。另一个由英国和加拿大院校组成的METAVRIC研究组，将遗传数据，基因拷贝数和基因表达变化进行整合，并结合长期的临床随访结果将该肿瘤分为10个类型。如能进一步结合临床实际情况，这两个研究组的结果都将有助于肿瘤医生更好的进行预后判断，制定更佳的治疗方案。

METABRIC组织中的英国剑桥研究院癌症研究所的生物统计学家Oscar Rueda也在不断的改进着他们的研究方法，他们现在已经对2000个样本进行了全基因组测序。目的是希望找出导致肿瘤的驱动突变。他认为细胞恶变可能有数以百计种不同的途径。

大数据的分析方法可能最终揭示了许多以前被忽视的细胞途径。西奈山伊坎医学院的Avi Ma'ayan正在利用通路数据库来寻找未来潜在治疗靶点。他的成果主要来自于基于细胞特征的国家卫生研究网络(LINCS)，该组织使用的数据主要来自麻省理工学院如Broad研究所等。在该研究所的高通量实验室中，对十个不同的细胞进行了一系列药物的测试，既有实验性药物也有已经获批的药物，主要研究药物与细胞活性的相互作用。

Ma'ayan提出，研究者们首先去获得肿瘤细胞变异的特征，然后就需要寻找新的药物来对抗这种变异。如果临床研究人员想要阻断肿瘤中的某些变异的细胞通路，他们可以利用Ma'ayan的数据库来搜索有相关作用的药物。

临床应用

其后就需要将这些阻断肿瘤特异性突变的方法应用到对病人的治疗中。相关医院都可以收集病人的个体化治疗数据并不断的将其添加到该数据库。例如，在MD Anderson癌症中心，新诊断的癌症病患将进行选择性的癌基因筛查。该筛查并不是全基因组筛查，而只是针对具有相关突变活性的200个基因阵列进行的。随着相关研究的不断进展，这些癌种特异的相关筛查基因阵列也在不断增加。在过去的几年中，原来200个的基因阵列已经增长到了300个。

Navin专注于进行单细胞测序，所以他的研究着重于血液中循环的肿瘤细胞。针对血液样本的研究，一般在一个样本中一次只能收集到10到20个肿瘤细胞，但是，以前受分析方法限制根本不能够对这么小数目的细胞进行基因组分析。这种单细胞测序使得患者能够在整个治疗过程中进行微创性的动态监测，同时肿瘤医师可监测肿瘤细胞对治疗药物的反应或是否出现了耐药性。

来自加利福尼亚旧金山大学的分子生物肿瘤学家Laura van’t Veer开展了大数据与乳腺癌临床试验药物I-SPY的研究，首先根据病理诊断招募病人并以肿瘤特征为基础，以预先定义的8种类型分类。女性患者分别接受标准治疗和试验药物治疗，同时Van’t Veer和她的同事们监测肿瘤对靶向治疗的反应。研究目的就是评估提高靶向治疗有效率的生物标志物的真是效率。结果发现在标准的化疗组，观察到了30–35%的肿瘤完全缓解率，而在研究的8种亚型中，则有50–60%的完全缓解率。”

目前还有很多的挑战摆在我们面前，比如在一种肿瘤中就能观察到令人困惑的多样性突变，而且还会随时间而继续发生突变。然而，Ma'ayan依然保持乐观的态度，他说：“随着越来越多的人力物力的投入，必然会得到越来越多的信息，相伴而生出现越来越多好的解决方案，从而能够不断提高人类对肿瘤发生的整个过程的理解。这并不是遥不可及的，尽管我们目前感觉如此。”

来源：nature doi:10.1038/527S108a

（本文为【良医汇-肿瘤资讯】原创，欢迎转发，转载需经授权并注明出处）