由Stein Aerts(VIB-KU Leuven)领导的比利时计算生物学家团队开发了一种名为cisTopic的新生物信息学方法。受文本挖掘方法的启发,cisTopic通过寻找共同的主题,帮助科学家深入了解我们体内细胞内和细胞内基因调控差异的机制。在自然方法的新出版物中,Aerts和他的团队展示了这种方法的广泛应用,从大脑研究到癌症生物学。
我们的基因组由调节分子的组合控制,这些分子在我们的DNA中“开启”靶基因。这些调节分子与我们染色体中的所谓增强子和启动子区域结合。了解它们何时以及如何被激活,可以教会我们很多关于我们身体细胞多样性的知识。
“我们体内的所有细胞基本上含有相同的DNA,”教授解释道。Stein Aerts是VIB和KU Leuven计算生物学实验室的负责人。“每种细胞类型的独特之处在于,在任何特定时间哪些基因都是活跃的。”
单细胞技术的最新进展使像Aerts这样的科学家能够研究基因活性和调控DNA区域对数千个细胞的可及性。但是这些信息尚未解决逆向工程基因组调控代码的挑战。
聚类细胞
Aerts实验室的两位年轻研究人员CarmenBravoGonzález-Blas和Liesbeth Minnoye开始着手解决这个问题。“我们可以从单个细胞中获得的数据,关于其DNA中特定调控区域的可访问性,非常稀少。但是,我们希望根据这些可访问区域的相似性将单个细胞分组。”
为了解决这个问题,BravoGonzález-Blas从文本挖掘领域借用了一种称为“主题建模”的计算技术。她解释说:“在文本挖掘中,计算机可以从大量文本中发现”主题“,以及对每个主题都很重要的术语。当应用于我们的基因控制问题时,计算机会发现对每个细胞都很重要的主题。键入我们的身体。它还使我们能够确定每个主题的监管区域。“
更多地了解复杂的组织
“我们在各种数据集上评估了我们的新方法,发现它可以让我们准确地恢复预期的和新的细胞类型,”Minnoye补充道。“特别是在非常稀疏的数据上,我们的方法比以前开发的方法更强大。”
研究人员将cisTopic应用于生物复杂的细胞群,例如哺乳动物大脑中存在的细胞。cisTopic不仅允许他们恢复大脑中的主要细胞类型,而且该团队还能够识别新的亚群和主神经细胞类型的调节剂。
“除了大脑,我们还使用cisTopic来研究患者黑素瘤细胞培养基因可及性的动态变化,”Aerts补充道。“当我们调制这些癌细胞中已知的重要调节剂之一时,我们可以第一次追踪不同DNA区域随时间变化的可及性。这些方法最终将使我们能够更好地了解这些主要调节因子在癌症中的实际作用。细胞,以及它们控制的基因。“
这些不同的应用说明了团队研究球员的新方法的价值以及协调我们细胞中基因调控的机制。根据像Aerts这样的计算生物学家的说法,这是实现健康和疾病中细胞状态的实时和个性化监测的重要一步。