有许多方法可以切割和切割基因组数据以识别一种细菌,或者至少找到它的近亲。但莱斯大学的一位计算机科学家表示,对基因组进行测序的快速技术已经充斥着公共数据库并且以一种偏见的方式,包含了许多关于某些物种的基因组数据,而对其他物种则不够。
Todd Treangen及其同事测试了分类学分类方法,这些方法将目标细菌的基因组序列与大型数据库中记录的基因组序列进行匹配,以识别物种。在此过程中,他们制定了提高准确性和灵敏度的途径。
Treangen是本月发表在Genome Biology上的一项研究的资深作者,该研究表明,在一个广泛使用的联邦数据库 -国家生物技术信息中心的RefSeq中,随时间的变化如何影响了宏基因组分类方法的准确性。
宏基因组学专家Treangen(环境样品遗传物质研究)的主要关注点是保持快速鉴定对公众健康构成威胁的细菌的能力。
大数据具有独特的优势,可以做到这一点 - 但它有很多。他说,目前,低成本,高通量的DNA鸟枪测序机从微生物集合中读取短DNA序列,每两到三年就会使RefSeq 的基因组数据翻倍。
“我最初认为这些方法的数据总是更好,”Treangen说,他今年从马里兰大学高级计算机研究所加入赖斯。“你会期望没有惩罚,因为数据库的增长是好的。” 然而,研究人员发现,RefSeq中的细菌数据在分类层次的物种水平上具有巨大的影响,并且以惊人的速度增长。
对于将两种常用技术结合起来以确定其发现的研究人员而言,这是一个问题。一种称为基于k聚体的分类,其通过精确匹配鉴定来自细菌样品中所有生物的短DNA序列。
“大多数使问题在计算上可行的方法依赖于k-mers,它们与长度'k'完全匹配,或者是数据库中包含的微生物的关键,”他说。“如果顺序读取与数据库中的某些内容完全匹配,那么直觉就是你能够以更高的精度说明这是什么,并且更快捷的计算方法。”
他说,一种常用的基于k-mer分类的技术是最低共同祖先(LCA)分配。LCA将样本与共享匹配的序列进行比较,如果需要,将它们分配到分类中的更高级别,例如属而不是物种。但他说,对于试图确定病原体的研究人员来说,这可能不够具体。
事实上,该研究发现了一种名为Bracken的基于k-mer的分类工具,该工具使用贝叶斯统计来推断序列的最佳匹配,有助于缓解不平衡。即便如此,它仍难以在数据库中识别与近亲相关的基因组,但不能完美匹配。
Treangen说,对特定病原体的资金充足的研究是必要的,并且极大地帮助了快速爆发检测和跟踪,但它最终偏向像RefSeq这样的公共数据库。
“例如,对食源性病原体存在巨大偏见,”他说。“社会希望对沙门氏菌有很多了解,这是理所当然的。美国食品和药物管理局,特别是GenomeTrakr,已经帮助对数千种相关病原体进行测序,并将它们直接添加到参考数据库中。”
然而,他说,将参考数据库偏向特定属和微生物家族的方式会影响使用k-mer和LCA方法的快速分类学分类工具(如Kraken)的准确性和灵敏度。
Treangen说最近最好的假阳性鉴定实例是一项最初报告纽约市地铁炭疽细菌证据的研究。该研究基于来自样本的测序基因组,后来进行了修订,以反映错误识别序列为炭疽芽孢杆菌的错配。
虽然对公共卫生的关注是一个关键的优先事项,但Treangen说,需要能够应对数据库增长和噪声的新技术,以及增加序列基因组的广度,以便在该领域持续改进。“例如,来自土壤和海洋的微生物严重欠采样,”他说。“我们需要继续排序以更好地填充公共数据库,这将最终有助于我们从复杂样本中准确分类微生物的能力。”