卡内基梅隆大学的计算机科学家表示,神经网络和监督机器学习技术可以有效地表征使用单细胞RNA测序(scRNA-seq)研究的细胞。这一发现可以帮助研究人员识别新的细胞亚型并区分健康和患病细胞。
这种新的自动化方法不是依赖于不适用于所有细胞类型的标记基因,而是分析所有scRNA-seq数据,只选择那些可以区分一个细胞与另一个细胞的参数。这使得能够分析所有细胞类型并提供用于这些细胞的比较分析的方法。
CMU计算生物学系的研究人员今天在在线期刊Nature Communications上解释了他们的方法。他们还描述了一个名为scQuery的Web服务器,使该方法可供所有研究人员使用。
在过去的五年中,单细胞测序已成为细胞研究人员的主要工具。过去,研究人员只能通过处理批次的细胞来获得DNA或RNA序列信息,从而提供仅反映细胞平均值的结果。相比之下,一次一个地分析细胞,使研究人员能够识别细胞的亚型,或者了解健康细胞与患病细胞的区别,或年轻细胞与老年细胞的区别。
这种类型的测序将支持美国国立卫生研究院的新人类生物分子图谱计划(HuBMAP),该计划正在建立一个人体三维图,显示组织在细胞水平上的差异。Ziv Bar-Joseph是计算生物学和机器学习的教授,也是今天论文的共同作者,他领导着一个基于CMU的中心,为该项目提供计算工具。
“随着每个实验产生数十万个数据点,这将成为一个大数据问题,”Amir Alavi博士说。计算生物学专业的学生,与博士后研究员Matthew Ruffalo一起担任该论文的共同主要作者。“传统的分析方法不足以满足如此大的规模。”
Alavi,Ruffalo及其同事开发了一种自动化管道,试图下载所有可用于小鼠的公共scRNA-seq数据 - 从最大的数据库中识别每个细胞中表达的基因和蛋白质,包括NIH的Gene Expression Omnibus(GEO)。然后通过类型标记细胞并通过神经网络处理,神经网络是在人脑上建模的计算机系统。通过将所有细胞相互比较,神经网络识别出使每个细胞不同的参数。
研究人员使用来自类似阿尔茨海默病的小鼠研究的scRNA-seq数据测试了该模型。如所预期的,分析显示健康和患病细胞中脑细胞的水平相似,而患病细胞包括响应于疾病而产生的显着更多的免疫细胞,例如巨噬细胞。
研究人员使用他们的管道和方法创建了scQuery,这是一种可以加速对新scRNA-seq数据进行比较分析的Web服务器。一旦研究人员向服务器提交单细胞实验,该组的神经网络和匹配方法可以快速识别相关的细胞亚型并识别相似细胞的早期研究。