据说地球上,地上和周围的微生物数量超过了银河系中的恒星。预计病毒总数甚至会大大超过计算量。虽然许多病毒仍未知和未经培养,但基因组测序和分析方面的进展使研究人员能够从宏基因组和元转录组数据集中识别出超过750,000个未培养的病毒基因组。在IMG / VR中,由美国能源部(DOE)联合基因组研究所(JGI),美国能源部科学用户设施办公室的研究人员建立和维护的病毒序列数据库,病毒多样性在一年内增加了两倍。
随着越来越多的研究人员继续组装未培养病毒的新基因组序列,JGI研究人员领导了社区努力制定定义病毒数据质量的指南和最佳实践。在2018年12月17日发表在Nature Biotechnology上的一份报告中,JGI与一些病毒专家合作; 以及来自基因组标准联盟(GSC)的代表,这是一个开放式会员工作机构,让研究界参与标准制定过程; 国际病毒分类委员会,病毒官方分类的主要权威,目前正在根据基于序列的信息重新评估病毒分类。
质量和分析指南
“病毒是每个微生物生态系统的关键组成部分.JGI对开发病毒基因组标准特别感兴趣,因为我们自己生成了大量这些数据,”JGI研究科学家和第一作者Simon Roux说。“我们是一小部分研究人员的一部分,他们详细审查了这些数据,已经看到指标,并可以提供指导以帮助确定数据质量。此外,在本文中,我们试图提供的不仅仅是标准,而是还概述了可以对这些数据进行何种类型的分析,以帮助想要描述他们自己的新型病毒特征的研究人员。“
培养的病毒已经有了自己的数据质量标准,但这些标准不能直接应用于未培养的病毒,这些病毒的序列通常是不完整的,并且某些属性只能通过计算方法间接预测。
马里兰大学医学院基因组科学研究所的GSC主席Lynn Schriml说:“未开垦的病毒基因组社区已经共同确定了重要的报告和对研究界有价值的东西。” GSC包括来自国家生物技术信息中心(NCBI),欧洲生物信息学研究所和日本DNA数据库(DDBJ)的代表,他们也参与了本文的合作。
病毒基因组质量的分类
在该论文中,Roux及其同事概述了未开垦的病毒基因组的最低信息量,包括来源,病毒基因组鉴定方法和数据质量。JGI先前已经开发了用于报告的最小元数据的标准,其中单个扩增的基因组(SAG)和宏基因组装的基因组(MAG)被提交到公共数据库。
“一般来说,病毒序列数据和微生物组数据的巨大增长需要强大的标准和数据质量指标,以便研究界能够利用这些数据进行比较分析,”JGI Metagenome计划负责人兼研究高级作者Emiley Eloe-Fadrosh表示。“通过建立和推广' 最佳实践 ',研究界有机会打破数据可访问性和可重用性的障碍,从而在最初的项目范围之外扩大研究范围。”
该团队提出了三类基因组质量。“基因组片段”由单个或多个片段组成,预测其完整性小于90%,或者没有估计的基因组大小,并且被最小程度地注释。估计“高质量草案基因组”代表完整预期基因组序列的90%或更多,在片段中任何间隙跨越大多数重复区域。最后,“完成的基因组”将包括由没有间隙的单个连续序列组成的完整基因组和广泛的注释。
“如果你要建立一个标准,”Schriml指出,“必须讨论应该与研究界,分类学家和数据库提供者展示什么,并将这些数据需求整合到标准中。” Schriml补充说,期刊也开始支持GSC的“关于任何(X)序列的最低信息量(MIxS)”指南的应用,该指南是未开垦的病毒 基因组的保护伞。标准和其他类似的社区努力。GSC使用上传到BioSample数据库的记录跟踪过去十年中开发的这些标准的采用情况。这些记录反映了收集,测序和注释的单个样本,Schriml表示目前有近450,000份BioSample记录参考了MIxS指南,而春季追踪的记录为326,000。