如果没有谷歌地图或类似的导航技术,我们大多数人都会迷路。当这些地图工具包含额外的交通或天气数据时,我们可以更有效地导航。对于那些利用哺乳动物基因组来更好地了解疾病的遗传原因的科学家来说,结合各种类型的数据集也能让他们更容易找到方法。
索尔克研究所(Salk Institute)的一个研究小组开发了一种计算算法,它集成了两种不同的数据类型,使基因组内关键区域的定位比其他工具更精确。该方法将于2017年2月13日发表在《美国国家科学院院刊》(Proceedings of The National Academy of Sciences)上,详细介绍。该方法可以帮助研究人员更有针对性地搜索人类基因组中的致病基因变异,比如那些引发癌症或代谢紊乱的变异。
“大多数个体之间的变异发生在基因组的非编码区域,”资深作者约瑟夫·艾克说,他是霍华德·休斯医学研究所的研究员和索尔克基因组分析实验室的主任。“这些区域不编码蛋白质,但它们仍然包含导致疾病的基因变异。直到现在,我们还没有非常有效的工具来定位各种组织和细胞类型的这些区域。
只有大约2%的DNA是由基因组成的,这些基因编码的蛋白质使我们保持健康和功能。多年来,其他98%被认为是无关紧要的“垃圾”。但是,随着科学发展出越来越复杂的工具来探测基因组,很明显,很多所谓的“垃圾”具有重要的调控作用。例如,被称为“增强子”的DNA片段规定了何时何地读出基因信息。
增强子的突变或破坏越来越多地与人类疾病的主要原因有关,但增强子很难在基因组中定位。线索可以找到在某些类型的实验数据,如绑定中调节基因活性的蛋白质,蛋白质(称为组蛋白),DNA的化学修改包装,或存在的化合物称为DNA甲基打开或关闭基因(一个表观遗传因素称为DNA甲基化)。通常,寻找增强子的计算方法依赖于组蛋白修饰数据。但是Ecker的新系统,称为爬行动物(“基于组织特异性局部表观基因组签名的调控元件预测”),结合组蛋白修饰和甲基化数据来预测基因组的哪些区域含有增强子。在研究小组的实验中,爬行动物比单纯依赖组蛋白修饰的算法更能准确地找到增强子。
“这种方法的新颖之处在于,它利用DNA甲基化,真正缩小了组蛋白修饰数据所建议的候选调控序列,”索尔克研究所研究生、论文第一作者何玉鹏表示。“然后我们可以在实验室里测试爬行动物的预测,并用实验数据进行验证,这让我们对算法找到增强子的能力有了高度的信心。”
爬行动物算法一般分为两个步骤:训练和预测。在训练中,索尔克团队通过将已知增强子的位置以及DNA中除增强子以外的基因组区域输入算法,教会爬行动物识别哺乳动物增强子。在预测步骤中,该算法在9个小鼠和5个人类细胞系和组织中运行,这些细胞系和组织的增强子区域未知,并能准确定位潜在增强子的位置。最后,团队利用实验室实验数据,检验预测步骤中爬行动物的预测是否符合真实的调控区域。因为增强子增加了目标基因的活性,研究人员可以通过将它们连接到报告基因并观察假设的目标基因是否增强来测试DNA序列的活性。利用分子工具,研究小组对小鼠胚胎进行了改造,使增强子的激活能够触发相关报告基因的表达,并通过染色来监控这种表达。因此,如果爬行动物能够预测出一种特定的增强剂与老鼠前脑发育有关,那么研究小组就能够在胚胎的前脑区域寻找一种染色模式。如果他们看到了,爬行动物的预测就被认为是正确的。索尔克的研究小组还将爬行动物的预测与其他四种常用的增强算法进行了对比。总的来说,爬行动物的表现优于每一种,它们能更准确地找到增强区域(沿着DNA链靠近它们),而且出错(错误识别)更少。特别是,爬行动物比其他系统更成功地完成了一项宝贵的任务,即在不同的组织类型中寻找增强剂,而不是在它们所训练的组织类型中。
“基因组中的基因变异数量是巨大的,”Ecker说。“因此,在发现致病基因方面,你真的需要把重点放在你认为最重要的区域上,而确定增强子是这一过程中的关键一步。”