据说地球上,地上和周围的微生物数量超过了银河系中的恒星。预计病毒总数甚至会远远超过计算量。
虽然许多病毒仍未知和未经培养,但基因组测序和分析方面的进展使研究人员能够从宏基因组和元转录组数据集中识别出超过750,000种未培养的病毒基因组。在IMG / VR中,由美国能源部(DOE)联合基因组研究所(JGI),美国能源部科学用户设施办公室的研究人员建立和维护的病毒序列数据库,病毒多样性在一年内增加了两倍。
随着越来越多的研究人员继续组装未培养病毒的新基因组序列,JGI研究人员领导了社区努力制定定义病毒数据质量的指南和最佳实践。在2018年12月17日发表的一份报告中,JGI与Nature Biotechnology合作,与一些病毒专家合作; 以及来自基因组标准联盟(GSC)的代表,这是一个开放式会员工作机构,让研究界参与标准制定过程; 国际病毒分类委员会,官方病毒分类的主要权威,目前正在根据基于序列的信息重新评估病毒分类。
质量和分析指南
“病毒是每个微生物生态系统的关键组成部分。JGI特别感兴趣的是开发病毒基因组标准,因为我们自己生成了大量这些数据,“JGI研究科学家和第一作者Simon Roux说。“我们是一小部分研究人员的一部分,他们详细审查了这些数据,已经看到指标,并可以提供指导,帮助确定数据质量。此外,在本文中,我们不仅尝试提供标准,还概述了可以对这些数据进行何种类型的分析,以帮助那些想要描述他们自己的新病毒特征的研究人员。
培养的病毒已经有了自己的数据质量标准,但这些标准不能直接应用于未培养的病毒,这些病毒的序列通常是不完整的,并且某些属性只能通过计算方法间接预测。
马里兰大学医学院基因组科学研究所的GSC主席Lynn Schriml说:“未开垦的病毒基因组社区共同确定了重要的报告和对研究界有价值的东西。” GSC包括来自国家生物技术信息中心(NCBI),欧洲生物信息学研究所和日本DNA数据库(DDBJ)的代表,他们也参与了本文的合作。
病毒基因组质量的分类
在该论文中,Roux及其同事概述了未开垦的病毒基因组的最低信息量,包括来源,病毒基因组鉴定方法和数据质量。JGI 先前已经开发了用于报告的最小元数据的标准,其中单个扩增的基因组(SAG)和宏基因组装的基因组(MAG)被提交到公共数据库。
“病毒序列数据和微生物组数据的巨大增长需要强大的标准和数据质量指标,以便研究界能够利用这些数据进行比较分析,”JGI Metagenome计划负责人兼研究高级作者Emiley Eloe-Fadrosh表示。“通过建立和推广'最佳实践',研究界有机会打破数据可访问性和可重用性的障碍,从而在最初的项目范围之外扩大研究范围。”
该团队提出了三类基因组质量。“基因组片段”由单个或多个片段组成,预测其完整性小于90%,或者没有估计的基因组大小,并且被最小程度地注释。估计“高质量草案基因组”代表完整预期基因组序列的90%或更多,在片段中任何间隙跨越大多数重复区域。最后,“完成的基因组”将包括由没有间隙的单个连续序列组成的完整基因组和广泛的注释。