来自Stowers医学研究所的科学家表示,他们已经创造了一种快速有效地定义个体蛋白质结合的新方法。他们在Nature Communications上发表的研究(“ 蛋白质相互作用网络的拓扑学评分”)展示了Stowers研究人员创建的拓扑评分(TopS)算法如何通过组合数据集来识别聚集在一起的蛋白质。
科学家解释说,这不仅有助于研究人员识别蛋白质如何发挥生物功能或进行生物过程,该算法还可以应用于先前生成的生物数据以及可能用于收集新信息的其他科学领域。
“在网络中定义单个蛋白质关联仍然是一个重大挑战,其中单个蛋白质可以直接与其他蛋白质相互作用和/或是包含功能模块的大型复合物的一部分。在这里,我们展示了用于分析亲和纯化的定量蛋白质组数据集的拓扑评分(TopS)算法,“他们写道。
“以平行方式分析数据,其中通过聚合来自整个数据集的信息在单独的亲和纯化中对猎物蛋白进行评分。拓扑评分涵盖广泛的值,表明每种诱饵蛋白纯化中单个蛋白质的富集。TopS适用于衍生自人类DNA修复蛋白和酵母染色质重塑复合物的相互作用网络。TopS强调复合物中潜在的直接蛋白质相互作用和模块。TopS是一种快速的方法,可以对数据集进行有效和信息丰富的计算分析,是对现有分析管道的补充,并提供了对蛋白质相互作用网络的重要见解。“
该方法类似于查看社区中所有个人的活动和交互,然后选择最有意义的交互,其中一些可能非常罕见。研究人员正在寻找两个人的生物学等价物,这两个人可能是整个社区中参与重要互动的唯一两个人。
“这是一种大数据分析形式,我们正在应用于蛋白质组学数据来识别和理解蛋白质相互作用网络,”Stowers蛋白质组学中心主任Michael Washburn博士说。“这是对已经使用的许多技术的补充,因此它可以用来提问和回答新问题。”
蛋白质数据集可能难以检查有意义的信息,因为它们非常大。“你需要看到数以千计的蛋白质,”Stowers的高级研究专家Mihaela Sardiu博士说。了解各种各样的蛋白质如何结合起来做某些事情,比如修复DNA,是一个难题。“我们想简化这个问题。”
这意味着他们不是全面了解一切,而是寻求不太常见的事件。研究人员通过寻找诱饵(已知参与感兴趣的过程的蛋白质)和猎物(可与诱饵蛋白相互作用的蛋白质)来研究它们如何在人类DNA修复和酵母染色质重塑复合物中相互作用。通过TopS,数据以并行方式进行分析,这意味着同时考虑来自几个生物相关诱饵的数据。
TopS的一个关键属性是能够评估猎物蛋白质对诱饵相对于其他诱饵的偏好。Sardiu解释说:“我们现在不是通过仅集中一个诱饵的信息来计算得分,而是整合整个数据集中的信息。”
Washburn和Sardiu认为,无论是基础研究还是其他研究,TopS都可以应用于蛋白质组学以外的各种数据集。Sardiu看到了将其用于医疗保健数据的潜力,医生可能能够将患者的健康状况与其他人进行比较,例如能够判断患者的病情是否“与其他患者相比是否真正先进”,她说。
该团队还在计算机代码库Github上发布了这些发现,因为他们希望为其他研究人员提供测试算法的机会,并了解他们如何将其应用于自己的项目。
“我们很高兴看到这可以走多远。这是一个潜在的高影响力工具,我们希望看到其他创意和创新人士可以想出什么,“沃什伯恩说。“我们认为这对于很多人来说是一个非常有价值的潜在工具,他们正在努力应对大规模数据分类的挑战。”