受文本挖掘方法的启发,一种名为cisTopic的新生物信息学方法通过寻找常见的“主题”,帮助科学家深入了解细胞间基因调控差异的机制。昨天发表于“自然方法”的论文展示了广泛的这种方法的应用。
“我们体内的所有细胞基本上含有相同的DNA,”VIB-KU Leuven的资深作者Stein Aerts说。“每种细胞类型的独特之处在于,在任何特定时间哪些基因都是活跃的。”
单细胞技术的最新进展使科学家们能够研究基因活性以及调控DNA区域对数千个细胞的可及性。但是这些信息尚未解决逆向工程基因组调控代码的挑战。为了解决这个问题,研究人员从文本挖掘领域借用了一种称为主题建模的计算技术。
研究人员将cisTopic应用于生物复杂的细胞群,例如哺乳动物大脑中存在的细胞。cisTopic不仅允许它们恢复大脑中的主要细胞类型,而且团队还能够识别新的亚群和主神经细胞类型的调节剂。“在文本挖掘中,计算机可以从大量文本中发现'主题',以及对每个主题都很重要的术语,”共同第一作者CarmenBravoGonzález-Blas说。“当应用于我们的基因控制问题时,计算机会发现对我们体内每种细胞类型都很重要的主题。它还使我们能够确定每个主题的监管区域。“
“除了大脑,我们还使用cisTopic来研究患者黑素瘤细胞培养基因可及性的动态变化,”Aerts说。“当我们调制这些癌细胞中已知的重要调节剂之一时,我们可以首次跟踪不同DNA区域随时间变化的可及性。这些方法最终将使我们能够更好地了解这些主要监管机构在癌细胞中实际做了什么,以及它们控制哪些基因。“
这些不同的应用说明了团队研究球员的新方法的价值以及协调我们细胞中基因调控的机制。根据像Aerts这样的计算生物学家的说法,这是实现健康和疾病中细胞状态的实时和个性化监测的重要一步。