一个由计算机科学家组成的国际团队开发出一种方法,可以极大地提高研究人员对实验室中无法培养的生物DNA进行测序的能力,例如生活在人体肠道中的微生物或生活在海洋深处的细菌。他们在2月1日的“ 自然方法 ” 杂志上发表了他们的着作。
这种名为TruSPADES 的方法通过计算机生成所谓的Synthetic Long Reads,即大约10,000个碱基对的基因组,来自基于圣地亚哥的Illumina机器生产的300碱基对的常用短读取。研究人员说,使用Synthetic Long Reads代替短读取来组装基因组就像使用整个章节而不是单个句子来组装一本书。因此,强烈的动机是通过长读取改进测序。
“这是下一代测序技术,”加州大学计算机科学教授,该研究的主要作者Pavel Pevzner说。“它将对宏基因组测序的实践产生重大影响。”目前,长读序列市场的领导者,太平洋生物科学公司和牛津纳米孔公司,在复杂的测序问题中产生长读取,这些读取可能不准确且难以使用,例如组装宏基因组 - 从其自然环境中采集的整个微生物菌落。相比之下,合成长读数的准确度要高100倍,并且可以大规模快速生成,以覆盖宏基因组中的大部分细菌。
为了开发他们的新方法,研究人员采用了100到300个碱基对的较短读数,配备了条形码。然后,他们使用de Brujin图表(一种常用于短读序列的方法)将短读数组合成合成长读数。该图表允许研究人员确定哪些读数连接在一起,从而产生更长,更准确的合成长读数。
下一步是将该方法应用于从人类到海洋微生物组的各种微生物群落的研究。来自圣彼得堡国立大学的Pevzner和共同作者Anton Bankevich正在与J. Craig Venter研究所的研究员Christopher Dupont合作。
宏基因组学尤其具有挑战性,因为研究人员不研究单一种类的细菌,而是研究数百种在社区中共存的细菌。当他们从社区中提取样本并对其进行测序时,他们最终会得到来自社区所有生物体的细菌基因组。这非常类似于试图解决数百个谜题,而不知道哪些谜题属于哪个谜题。TruSPADES和Synthetic Long Reads将帮助研究人员解决这些难题。“这种方法以更低的成本为我们提供了更好的结果,”杜邦说。“我们现在正在为我们甚至不知道存在的生物组装基因组。”