与房地产一样,基因表达和互动的关键因素是位置,位置,位置。身体不同区域的相同基因可以执行完全不同的功能。确定这些基因的命运涉及系统地绘制和检测它们的空间表达模式,这是一项难以置信的挑战,因为研究人员必须处理大量数据。
美国能源部劳伦斯伯克利国家实验室和加州大学伯克利分校的研究人员正在研究一种从空间基因表达数据中提取有意义信息的新统计方法。“我们正在调查发育的过程,即未分化的受精卵如何长成一个完整的生物体,如苍蝇或人类,”环境基因组学和系统生物学部伯克利实验室科学家Erwin Frize说。
近几十年来,挑战源于基因组测序的成功 - 以及随后产生的大量RNA数据。特别是Frize和伯克利实验室资深科学家Susan Celniker一直致力于将果蝇基因组作为伯克利果蝇基因组计划的核心成员,该项目由Celniker共同指导。
自从2000年黑腹果蝇基因组成功测序以来,研究人员已经积累了大量的基因表达数据,涵盖了果蝇生命阶段,从卵到完全发育的幼虫。“我们的数据集庞大而复杂,需要新方法来提取有关指导基因分化成特定细胞和组织的调控网络的有用生物信息,”Celniker说。“我们通过基因确定了空间基因表达模式,现在的目标是确定组织原则。”
伯克利实验室的研究人员与加州大学伯克利分校统计系的同事合作,共同应对这一挑战。统计学教授Bin Yu和她的研究生Siqi Wu与Frize合作开发了一种学习算法,将生物空间数据或图像划分为研究人员称之为主要模式的构建模块。
“这些主要模式对应于器官前区域,这些区域将成为身体的不同部位,”Yu说。“基因合作开发这些预先订购的区域。”他们将该算法应用于仅1至3小时的果蝇胚胎获得的数据。值得注意的是,在生物体的发育过程中,细胞命运是在结构特征可见之前确定的。
该算法在数据中检测到相关基因功能的迹象,以创建注定成为大脑,中肠,中胚层等的遗传区域的拓扑图。该地图包含21种不同的主要模式。他们通过将它们与传统的命运地图相匹配来确认结果。
在最近的一项研究中描述的这种方法可以在审查人体组织组织和帮助阐明发育,人类健康和疾病的关键方面。