寻找具有宏基因组序列的结构

发布日期：2019-01-07 浏览次数：153

对于蛋白质，外观很重要。这些重要分子主要形成细胞结构并发挥其功能：蛋白质控制生长并影响迁移，作为催化剂，运输或储存其他分子。由长氨基酸链组成，一维氨基酸序列在纸上可能看起来毫无意义。然而，从三个维度来看，研究人员可以看到蛋白质的结构是什么，蛋白质的结构，特别是它的折叠方式，决定了它的功能。

寻找具有宏基因组序列的结构

在数据库Pfam中有近15,000个蛋白质家族 - 共享进化起源的家族群体。对于近三分之一(4,752)的这些蛋白质家族，每个家族中至少有一种蛋白质已经具有实验确定的结构。对于另外三分之一(4,886)的蛋白质家族，可以建立具有一定程度信心的比较模型。然而，对于数据库中最后的第三个(5,211)蛋白质家族，不存在结构信息。

在2017年1月20日的“ 科学”杂志上，华盛顿大学的David Baker与美国能源部联合基因组研究所(DOE JGI)的研究人员合作，该组织是美国能源部科学用户设施办公室，他们报告说，结构模型有已经生成614%或12%的蛋白质家族，这些家族以前没有结构信息。“这可以通过计算建模方法完成，但在5年前并不明显，”该团队在他们的论文中指出。通过合作，Baker实验室的蛋白质结构预测服务器Rosetta分析了由DOE JGI运行的综合微生物基因组(IMG)系统上公开的宏基因组序列，从而实现了这一成就。

“大量的蛋白质家族(在Pfam中)具有较少的序列，”研究第一作者谢尔盖·奥夫琴尼科夫说，他是贝克实验室的研究生。“这导致了两个后果：1)没有人关心这些家庭(因为他们很小); 2，共同进化方法不能用于研究它们。用宏基因组学，我们发现其中一些被忽视的家庭只有到目前为止，一些序列，当考虑到宏基因组学数据时，现在可以变得像一些研究最多的序列一样大!此外，我们可以提供一个来自家庭的代表性序列的3D模型。我们希望这会引起兴趣其中一些家庭。“

有了基因组序列，像Baker这样的研究人员已经能够识别出同时进化的氨基酸组，即使它们在展开链上彼此不相邻。这些事件表明这些氨基酸是折叠蛋白质中的邻居，为研究人员提供了关于蛋白质结构的暗示。结构接近可以表明功能关系，因此作用于功能的自然选择不仅有利于一种氨基酸，而且有利于该组中的所有氨基酸。

DOE JGI原核生物超级计划主管Nikos Kyrpides表示，Baker实验室与DOE JGI之间的合作使该团队能够提出一种预测结构和结构对齐的强大方法。“这些努力以前只限于在分离基因组上发现的序列产生的蛋白质家族。这些基因组包含大约2亿个序列。正如预期的那样，当我们添加我们的宏基因组学数据时，利用我们可用的50亿个组装的宏基因组序列。 IMG / M数据库，我们能够显着增加许多已知蛋白质家族的覆盖范围。像这样的努力在很大程度上取决于组装的宏基因组序列的可用性，这是DOE JGI带来的高品质优势组件“。

Kyrpides补充说，这项工作，也涉及DOE JGI研究人员Neha Varghese和George Pavlopoulos，体现了他希望看到鼓励的另一种合作。“人们来到我们这里是因为我们正在维护最大程度集成的宏基因组。这些工具在我们的数据上的应用为大型社区如何利用JGI资源进行发现提供了一个很好的例子。我们非常希望看到更多的成功案例像这样通过JGI和国家能源研究科学计算中心(NERSC)之间的新数据科学电话会议。“

JGI-NERSC微生物组数据科学调用将使用户能够执行最先进的计算基因组学和宏基因组学研究，并帮助他们将DOE JGI或其他地方生成的序列信息转化为生物发现。该提案呼吁建立在“用户科学合作设施”(FICUS)倡议的成功基础之上，该倡议旨在鼓励并使研究人员能够更轻松地将多个国家用户设施的专业知识和能力整合到他们的研究中。JGI-NERSC协作科学电话的申请目前正在接受，直到2017年3月1日。