研究人员开发了一种从生物学中的大数据中获取有用信息的新方法,以更好地理解和预测细胞内部发生的事情。利用基因组规模模型,研究人员能够整合多个不同的数据集,并在不同的细胞过程中发现新的生物模式。该研究由加州大学圣迭戈分校的生物工程师领导,于10月26日在Nature Communications上发表。
例如,科学家们更多地依赖大数据在生物学方面进行新的定量发现,例如基因组,微生物组,个性化医学和疾病建模。利用当今的技术,科学家们能够生成有关细胞或生物体的完整基因,蛋白质,RNA谱,代谢物以及更为人所知的原子数据的数据。利用omic数据,科学家们可以对复杂的生物相互作用进行建模,并对不同的细胞过程有更全面的了解。但挑战在于分析和理解这些大型数据集。
“在进行大数据分析时,重要的是要了解所有这些不同的数据类型是如何相关的。现在我们有一种方法可以连接多种不同的数据类型来生成生物学问题的基本答案,”Galetti生物工程教授Bernhard Palsson说。加州大学圣地亚哥分校雅各布工程学院和该研究的高级作者。
“虽然所有这些数据类型都是从同一个单元格派生出来的,但它们代表了以不同规模发生的过程。我们的工作是让多个不同的数据类型同步,以便我们能够理解这些过程的协调并从中获得意义,” Elizabeth Brunk,Palsson实验室的博士后研究员,也是该研究的共同第一作者。
这项研究是解决国家卫生研究院提出的一项名为“知识大数据”的重大挑战的一部分 - 将大型复杂的生物数据集转化为可以基于基本原理理解的信息。
在这项研究中,研究人员从不同生长环境中生长的大肠杆菌中收集了多种数据类型(RNA序列,核糖体谱,蛋白质数据,代谢数据)。然后,该团队将这些不同的数据类型整合到下一代基因组规模的代谢模型中,这些模型是在Palsson的实验室中开发的。
他们检查了原子数据类型之间的关系,发现了新的规律,这是环境变化的生物一致性。他们发现的规律之一是,在蛋白质翻译过程中,核糖体始终在信使RNA转录本上的特定位点停留,并且这些暂停位点决定了蛋白质的三维结构。
Palsson解释说,暂停位点的存在使得蛋白质有时间折叠并形成其整体形状,这对蛋白质正常运作很重要。这些知识对于研究癌症生物学非常有用。如果肿瘤具有消除暂停位点的基因突变,则翻译将产生不能正确折叠并且发生故障的蛋白质。
帕尔森说:“现在我们对这些我们以前没有过的暂停站点有一个基本的解释。就好像我们正在以一定的节奏目睹错综复杂的舞蹈,以确保蛋白质以正确的方式形成。”
该团队还开发了所谓的参数化模型,该模型可用于预测当细胞经历环境变化时表达哪些基因。
“由于Palsson博士实验室开发的基因组规模模型中提供的高质量拓扑信息,我们可以更好地了解基因,蛋白质和代谢物之间的联系,并将多元数据置于这些生物化学的背景中网络,“布兰克说。