我们体内的细胞以不同的方式表达自己。一个细胞可能会放置一大块遗传密码,而另一个细胞完全忽略相同的信息。了解为什么可以刺激新的干细胞疗法,或者导致对生物体如何发展的更基本的理解。但是,了解这些细胞间差异可能具有挑战性。
现在,两位加州大学洛杉矶分校的研究人员提出了一种计算工具,可以提高测量基因在单个细胞中表达强度的可靠性,即使细胞几乎不能读取某些基因。该研究于上个月在Nature Communications杂志上发表。
“脑细胞,肝细胞和心脏细胞的DNA序列是相同的,”该研究的通讯作者和加州大学洛杉矶分校统计学助理教授Jingyi“Jessica”Li说。“为什么那些细胞看起来如此不同?关键是基因表达。”
DNA编码创建和操作生物体所需的信息。但阅读和处理这些信息的任务属于RNA,这是将遗传指令传递到细胞其他部分的长链移动分子。通过统计细胞中的各种RNA分子,研究人员可以确定哪些基因是活跃的还是“表达的” - 以及在何种程度上。
然而,如果RNA分子仅以微量存在,那么分析工具可能会被认为相应的基因根本不活跃。除非经过纠正,否则这些“辍学”可能会描绘出细胞之间实际差异的误导性图片。
“如果你想在个体细胞水平上获得有用的生物信息,那么你需要做一些统计推断,”Li说,他也是统计和生物学实验室的负责人。“否则你的结论可能是错的。”
Li和Wei“Vivian”Li是加州大学洛杉矶分校统计学系的博士研究生,他设计了统计分析软件来处理RNA测序中的辍学问题。他们的工具,称为“scImpute”,根据对实验中所有单个细胞的研究,估计细胞中哪些基因最有可能退出。然后,该工具使用来自相似细胞的信息,对基因表达水平应该是什么进行有根据的猜测。
利用估算并不新鲜。但是,可用的工具要么过于广泛地交换一个细胞的所有基因表达与另一个细胞 - 或超特异性的特定类型的研究。jessica Li表示,scImpute的优势在于“灵活性和普遍性”。该工具具有手术精确度,仅替代最有可能退出的丰度,可用于任何类型的单细胞基因表达分析。
在Vivian Li对模拟数据和实际数据的综合测试中 - 其中一些数据提供了实际基因表达水平的经验证据 - scImpute比其他方法更准确。该软件可以可靠地区分丢失基因和完全没有表达的基因,并提供实际丰度的准确估计。
这个开源软件可以免费在线获得,作为广泛使用的统计分析科学计算平台的附加组件,称为R编程环境。
两位研究人员已经证明,当辍学率很低时,scImpute在小组细胞中效果很好。但在人口众多的情况下,辍学率可超过基因的90%。他们的下一个目标是在这些情况下使该工具同样可靠。借用信息来自其他基因,不只是其他细胞从在线数据库-and,他们认为scImpute可以成为所有情况下一个强大的工具。