据宾夕法尼亚大学佩雷尔曼医学院的研究人员领导的研究小组称,一种强大的新机器学习技术可应用于生物科学中的大型数据集,以揭示以前未知的生物及其基因特征。例如,该技术学习了当细菌暴露于低氧条件时出现的特征性基因表达模式,并且强烈地鉴定了响应于抗生素而发生的变化。
该技术采用了最近开发的称为“去噪自动编码器”的算法,该算法学习识别大型数据集中的重复特征或模式,而不会被告知要查找的具体特征。例如,在2012年,当谷歌赞助的研究人员对随机选择的YouTube图像应用类似方法时,他们的系统成功学会识别这些图像的主要复发功能 - 包括猫。
在本周发表于在线期刊mSystems的新研究中,系统药理学和转化治疗学助理教授Casey Greene博士与达特茅斯学院的Deborah Hogan博士合作,使用一种去噪自动编码器系统来分析许多大型测量细菌中基因如何在不同条件下表达的数据集。
“系统从这些数据中学习了细菌基因组学的基本原理,”格林说。“我们希望这种方法对微生物学家研究在实验室中缺乏数十年研究历史的细菌物种特别有用。微生物学家可以使用这些模型来确定数据与他们自己的知识在哪里以及数据似乎在哪里指向不同的方向。“ Greene认为这些数据可能会提示新的生物机制。
去年,Greene和他的团队在生物学背景下发表了新方法的第一次演示:分析乳腺癌的两个基因表达数据集。这项新研究更加雄心勃勃 - 它涵盖了109个不同数据集中当时公开获得的铜绿假单胞菌细菌的所有950个基因表达阵列。该细菌是医院中以及患有囊性纤维化和其他慢性肺病的个体中的臭名昭着的病原体,并且由于其对标准抗生素疗法的高抗性而经常难以治疗。
第一作者杰坦,达特茅斯的研究生,直到最近,Greene在他的实验室开发了ADAGE(使用基因表达的去噪自动编码器进行分析)并将其应用于铜绿假单胞菌数据集。该数据仅包括大约5,000个铜绿假单胞菌基因的身份,它们在每个公开的实验中测量的表达水平。目的是证明这种“无监督”的学习系统可以揭示铜绿假单胞菌基因表达的重要模式,并阐明这些模式在细菌环境变化时如何变化,例如在抗生素存在的情况下。
即使使用ADAGE构建的模型相对简单 - 大致相当于只有几十个神经元的大脑 - 它可以毫无困难地了解哪组铜绿假单胞菌基因倾向于一起工作或相反。令研究人员惊讶的是,ADAGE系统还检测到铜绿假单胞菌的主要实验室菌株与从感染患者中分离的菌株之间的差异。“这是数据最强大的功能之一,”格林说。
“我们对与培养的肺上皮细胞生长的铜绿假单胞菌和这些直接来自患有囊性纤维化的个体的肺有关的细菌之间的相似性感到震惊,”霍根实验室的研究生John H. Hammond说道。项目。“我们很高兴继续将ADAGE与来自患者样本的数据和使用实验室模型的实验相结合,以找到更好的方法来找到治疗囊性纤维化肺部感染的疗法。”“我们认为'大数据'的扩散通过使用无监督的机器学习提供了一个机会,可以在生物学中找到我们甚至不知道要寻找的全新事物,”格林说。