费城儿童医院(CHOP)的科学家表示,他们开发了一种计算工具,为研究人员提供了一种新技术,用于检测从DNA复制后RNA被剪接的不同方式。研究人员表示,由于RNA剪接方式的变化在许多疾病中起着至关重要的作用,这种新的分析工具将为发现疾病生物标志物和治疗靶点提供更大的能力,甚至可以从覆盖范围适中的RNA测序数据集中获得。
研究负责人Yi Xing博士,CHOP计算与基因组医学中心主任,第一作者和博士生Zijun Zhang和Zhicheng Pan报告(“深度学习增强RNA-seq分析转录本拼接”)在他们的DARTS框架上在自然方法。他解释说,DARTS(Transcript Splicing的深度学习增强RNA-seq分析)使用基于深度学习的预测来利用RNA-seq的公共数据集中可用的大量信息,从而允许对可选择的剪接有新的见解。
“DARTS的概念创新是它提供了一个桥梁,从公共领域的大数据到与个体研究者进行重点研究的小数据集,”Xing说。“DARTS提供了将大量公共RNA-seq数据转化为知识库的能力,该知识库以深度神经网络的形式表示,如何调节剪接。使用这个计算框架,我们可以将其推入任何单个实验室。这可能非常有用,可以提高实验效率并实现新发现。只需要2千万或3千万个RNA-seq读数,您就可以对过去从未见过的事情做出有根据的猜测和推论。“
“选择性剪接的RNA测序(RNA-seq)分析的一个主要限制是它依赖于高序列覆盖。我们报告了DARTS,这是一个计算框架,它将基于深度学习的预测与经验性RNA-seq证据相结合,以推断生物样本之间的差异选择性剪接,“研究人员写道。“DARTS利用公共RNA-seq大数据通过深度学习提供剪接调控的知识库,从而帮助研究人员使用RNA-seq数据集更好地表征选择性剪接,即使覆盖范围适中。
大规模平行RNA测序现在是研究人员用于研究可变剪接的标准技术。然而,为了准确测量可变剪接,RNA测序实验必须深入。一致认为,分析选择性剪接需要超过1亿个序列,但由于成本高,大多数研究人员无法承担他们的RNA测序实验。此外,许多医学上重要的基因不以高水平表达。即使是深度RNA测序实验也无法对这些基因产生足够的覆盖率,因此几乎不可能测量基因的可选剪接模式。
在目前的研究中,Xing的团队首先利用来自国家人类基因组研究所发起的国际计划ENCODE Consortium等来源的大规模公共领域RNA测序数据来识别基因组中的所有功能元件,包括那些在RNA水平起作用的人。使用这些海量数据集,DARTS训练深度神经网络来预测可变剪接的变化。该模型包含1,500个RNA结合蛋白和3,000个序列特征的信使mRNA水平。
为了让研究人员在他们自己的研究中使用深度学习模型,深度神经网络预测与使用称为贝叶斯假设检验的统计框架在特定生物样本上生成的实际RNA测序数据相结合。研究人员可以在他们各自的实验室中使用这些信息,以更好地表征不同生物条件下的可变剪接。
研究人员将DARTS应用于肺癌和前列腺癌细胞系,以测试其预测细胞剪接模式的能力。这些细胞系是从上皮细胞向间充质细胞转变的模型 - 胚胎发育和癌症转移中的重要过程。通过利用深度学习预测,DARTS发现了许多基因中可变剪接模式的变化,这些基因逃脱了传统计算工具的检测,因为这些基因在细胞中以低水平表达。研究小组随后进行了实验以验证这些新颖的预测。这些新发现可能使科学家能够更好地识别疾病的生物标志物和治疗靶点。
“DARTS提供了一个令人兴奋的概念框架,我们可以适应其他用途,”Xing补充说。“例如,我们可能会创建一个预测特定患者组织中可选择剪接的版本。”这可能有助于改善组织活检诊断罕见疾病,这是一种用于CHOP等儿科中心的有用技术,通常可以评估儿童疑惑,未确诊障碍。
邢总结说,DARTS可以让科学家们更多地发现未被研究的基因的贡献,这些基因可能不会在高水平表达,但对健康和疾病有重要影响。“DARTS为转录组的暗物质提供了一个新窗口,”他说。