俄勒冈州立大学的研究人员利用深度学习来破译哪些核糖核酸有可能编码蛋白质。在科学学院和工程学院开发的门控递归神经网络是朝着更好地理解生命的基本必需分子之一RNA迈出的重要一步。
释放RNA的奥秘意味着了解它与人类健康和疾病的关系。深度学习是一种不基于任务特定算法的机器学习,是解决难题的有力工具。
研究的主要作者大卫亨德里克斯说:“对某些人来说,深度学习可能看起来很可怕,但最终只是处理数字。”“它就像微积分或线性代数一样,我们可以用它来学习生物模式。我们现在拥有的测序数据量巨大,深度学习非常适合面对与大量数据相关的挑战。学习表征这些分子功能的新生物学规则。“
RNA由DNA转录而来,另一种核酸 - 因为它们首先在生物的细胞核中被发现而被命名 - 产生全身所需的蛋白质。
DNA包含一个人的遗传信息,RNA充当信息,将信息的编码指令传递给细胞内的蛋白质生产基地。
一些RNA是从DNA转录而未翻译成蛋白质的功能性分子。这些被称为非编码RNA。
Hendrix说,每天都会发现新的RNA,并且基因测序技术已经发展到分子生物学家正在面对新的成绩单注释的“洪流”,以收集信息。
研究人员是一位负责生物化学/生物物理学和计算机科学联合任命的助理教授,这些庞大的数据集需要采用新的方法。
Hendrix及其同事对非编码和信使RNA序列进行了门控神经网络训练,然后将其放在数据上以“自己学习蛋白质编码转录本的定义特征”。
它确实改进了现有的预测蛋白质编码潜力的最先进方法。
“这真的令人兴奋,”亨德里克斯说。“通过竞争程序,开发人员会告诉程序什么是开放阅读框架,什么是起始密码子,什么是终止密码子。我们认为最好有一种更新的方法,神经网络可以独立学习“。
密码子是三个核苷酸的序列,核酸的基本结构单元。密码子就像DNA和RNA中的核苷酸和蛋白质合成背后的20个氨基酸之间的翻译。
与其他方法相比,OSU团队开发的模型(称为mRNN)在几乎所有可用度量标准中都具有统计上显着的优势。
“它不仅发现了终止密码子,它还将真正的终止密码子与其他与终止密码子匹配的三核苷酸区分开来,并识别出序列中的长程依赖性,”Hendrix说。“它不等待终止密码子 - 我们发现它在终止密码子之前很久就做出了决定,距起始密码子200个核苷酸。并且它学会了一小部分密码子,这些密码子在观察到蛋白质编码潜力时具有高度预测性。一个潜在的开放阅读框架。“
Hendrix及其同事将这些特殊密码子称为“TICs-翻译指示密码子”。