法国的研究人员报告称,他们开发了一种机器学习工具箱,可以读取和分析蛋白质序列。他们的研究(“ 从序列数据中学习蛋白质组成基序 ”) 出现在 eLife中。研究表明,当训练读取序列数据时,称为限制玻尔兹曼机器(RBM)的人工神经网络可以提供有关蛋白质结构,功能和进化特征的信息。它被认为是第一种可以仅从序列数据中提取这种细节水平的方法。
“进化相关蛋白质序列的统计分析提供了有关其结构,功能和历史的见解。我们展示了Restricted Boltzmann Machines,旨在学习复杂的高维数据及其统计特征,可以从序列信息中有效地模拟蛋白质家族。我们在这里将RBM应用于20个蛋白质家族,并提供两个短蛋白质结构域的详细结果,Kunitz和WW,一个长伴侣蛋白,Hsp70和用于基准测试的合成晶格蛋白,“研究者写道。
“RBM推断出的特征具有生物学上的可解释性:它们与结构(如残基 - 残基三级接触,扩展的二级基序(α-螺旋和β-折叠)和本质上无序区域)有关(如活动)和配体特异性),或系统发育的身份。此外,我们使用RBM通过组合和随意调高或调低不同模式来设计具有推定特性的新蛋白质序列。因此,我们的工作表明,RBM是一种多功能的实用工具,可以揭示和利用蛋白质家族的基因型 - 表型关系。“
一篇关键的问题是试图了解蛋白质序列的哪些部分负责哪些属性,据巴黎高等师范学院(ENS)物理实验室的前博士生JérômeTubiana称。“回答这个问题可能会对药物开发产生重大影响,”Tubiana解释道。“例如,它可以帮助设计具有所需功能的新蛋白质,或预测未来生物体中蛋白质的序列进化,如病原体,并确定适当的药物靶标。”
为了探索这个问题,Tubiana和他的合作者将RBM应用于20个蛋白质家族。研究人员为四个蛋白质家族提供了详细的结果 他们发现,在学习之后,RBM中人工神经元之间的联系是可解释的,并且与蛋白质的结构,功能(例如活动)或系统发育有关。此外,该团队发现他们可以使用RBM通过随意组合和调高或调低不同的人工神经元来设计新的蛋白质序列。
“我们的RBM模型展示了机器学习技术如何能够以可解释的方式解决复杂的数据识别并从数据中得出结论,”共同作者,ENS物理实验室CNRS研究主任Simona Cocco博士说。“这与传统上用于数据科学的更复杂的黑盒模型背道而驰,因为这些工具提供的统计分析在很大程度上是无法解释的。我们方法的可解释性对科学家来说是一个重大的好处; 它承诺允许它们以受控的方式产生具有所需功能的蛋白质。“