普林斯顿大学的研究人员通过利用机器学习同时分析数百种疾病的分子模式,正在获得对疾病原因和特征的新见解。计算机科学家和生物学家团队展示了现在全球研究人员可以使用的新工具,他们已经发现并实验证实了以前未知的四种基因对一种主要影响婴儿和幼儿的罕见癌症的贡献。
该团队包括密歇根州立大学和奥斯陆大学的合作者,他们在2月23日出版的Cell Systems期刊上发表了一篇论文,并介绍了该系统的能力。
虽然以前的方法专注于与特定疾病或癌症类型相关的基因,但新技术通过同时观察300多种不同的疾病,包括癌症,心脏病,代谢紊乱和许多其他疾病,利用机器学习来寻找独特的基因活动模式。通过这样做,它揭示了疾病和组织类型之间的区别,包括无法用其他技术辨别的相关疾病之间的微调差异。
研究人员相信,随着进一步的发展,该工具将有助于临床医生诊断疾病,定制和跟踪治疗的有效性,并寻找新的治疗方法。
该系统称为Unveiling RNA Sample Annotation for Human Diseases,或URSA(HD),其中包含来自公众可获得的记录的基因活性信息,这些记录来自数千名患者的健康和患病组织中的约8,000个活组织检查。展望未来,研究人员可以通过网络界面向工具提交新样本,并接收可能与疾病和组织类型相关联的分析。
“真正的创新是将所有样本与其他样本进行比较,”Chandra Theesfeld说道,他是Young-Suk Lee的主要研究人员之一,他获得了博士学位。2016年在普林斯顿大学。
Theesfeld将这个想法比作人类基于已经看到各种各样的例子来识别行为之间细微差别的能力。例如,观看足球运动员可能会揭示踢球动作的特征,但同时观看足球运动员和芭蕾舞演员会发现具有非常不同风格和目的的类似动作的细节和背景。
“将它们一起研究提供了一种区分独特方面的方法,”普雷斯顿和西蒙斯基金会Olga Troyanskaya实验室的研究科学家Theesfeld说道。这种观点提供了一种无偏见的方式“学习一种疾病的新事物,这种疾病是一次一种疾病无法找到的 - 并且可能确定治疗的新目标,甚至发现新的疾病方面不太感激。“
在进行比较时,该算法更加重视基因活动的差异,这些差异唯一地定义了不同的组织和疾病。它不再强调有关相关疾病常见基因活动的信息,其中大部分已经得到充分研究。在足球舞蹈的比喻中,它就像放弃一脚踢腿的大规模动作,并找到许多细节,例如一只脚的角度,这些细节合在一起构成一组特征,可以可靠地识别一个动作或另一个。
“我们的方法是由患者样本中的疾病信息驱动的,因此它不会偏向于常常被研究的流行疾病基因,”Theesfeld说。“我们可以跟踪数据变化的模式,而无需确切知道每个变化的含义。”
Theesfeld指出,90%的基因研究只占人类基因的10%。URSA(HD)着眼于整个人类基因组,并为每种疾病创建全基因组模型或特征。
这种方法对于罕见疾病可能特别有用,研究人员现在可以用少量样本创建模型。在儿童癌症神经母细胞瘤的情况下,研究人员发现了四种特别促成这种疾病的基因,科学文献中没有先前的信息。为了证实这些发现,Theesfeld对人体细胞进行了实验室测试,操纵了基因活性并观察了它们对细胞癌症相关过程的影响。
URSA(HD)不是研究DNA本身,而是研究RNA,这是细胞产生的产物,它将DNA中的信息转录成可以构建和运行细胞并在细胞间传递信号的工作分子。通过这种方式,系统看起来超越了突变(在基因本身中加扰),而是专注于下游转录产物,即使原始基因正常,也可能以导致问题的方式失调。
该研究是Troyanskaya实验室长期工作的一部分,该实验室整合了大量不同数据集,以提取进行精确生物预测所需的信息,并指导实验室实验加速发现。普林斯顿大学的各种数据科学将计算和生物学结合在一起,以开发可能对健康和人类产生广泛影响的基础工具和见解。
“将复杂的数据科学与深入的生物学知识相结合的跨学科方法是破解实现精准医学承诺所必需的生物医学难题的关键,”Troyanskaya说。