一群俄罗斯科学家,其中包括莫斯科物理科学与技术学院的工作人员,提出了一种新方法,用于比较所研究的生物材料样本中所有生物的宏基因组偶联DNA序列。该方法可以更有效,快速地解决比较样品的任务,并且可以很容易地嵌入到任何宏基因组研究的数据分析过程中。该研究已发表在BMC生物信息学期刊上。
居住在人体内的细菌为科学家们研究宏基因组学提供了一个特殊的地方。宏基因组学的重要性不容小觑:我们体内的细菌细胞数量超过我们自己的一个数量级,其中大多数细胞位于肠道内。全球项目,如人类微生物组项目,已透露,组成细菌群落的影响着我们的疾病的风险,最佳的饮食,心情,甚至创造性的选择。反之亦然 - 这些微生物的成分对体内发生的过程敏感。因此,通过比较样本患者和具有健康肠道宏基因组的人,从长远来看,可以评估糖尿病或糖尿病等危险疾病的风险。炎症性肠病。
宏基因组分析的传统方法是根据其分类组成,发现的每种微生物物种的百分比来比较样品。为了确定样品的组成,将其遗传序列与称为参考集的已知细菌基因组的数据库进行比较。然而,这种方法有几个缺点。首先,参考基因组通常是不准确的,因为确定参考基因组的组成是一项计算复杂且耗时的任务,特别是对于难以培养的物种; 并且在实验室中分离的物种的基因组可以携带与生活在自然环境中的相同物种显着不同的一组基因。其次,并非所有生物都是在参考基因组中收集的; 这些生物的例子是病毒。因此,在分析期间,不会考虑与参考样品不匹配的那部分样品序列,尽管它可能非常大且重要。同时,一个基于k-mer频率比较的方法不需要求助于参考样本或存在关于所研究生物的任何信息; 因此,对样品中的所有序列进行分析,得到最佳结果。该方法基于生物体基因组序列的表示作为具有特定长度“k”的核苷酸“单词”的所有实例的集合,称为k-mers。因为基因组是每种生物的独特序列,所以这些“单词”的集合在个体生物之间也不同。因此,宏基因组的所有k聚体的集合可以被视为一组集合,即其组成生物体。这允许在比较样品时评估细菌组成的差异。
为了测试k-mer技术与传统方法相比的有效性,使用了两组宏基因组数据 - 一组实际数据和一组人工生成的数据。人工数据(由基因组产生,具有预先已知的比例)便于用于测试该方法,该序列是精确已知的,并且可以通过将它们与先验的正确值进行比较来评估结果。来自美国和中国居民的肠道宏基因组被用作真实数据。
众所周知,细菌肠道群落在群体之间存在显着差异,并且算法显示出来; 正是那些显示组成差异的指标。因此,评估方法有效性的标准是可以区分宏基因组的程度 - 即中国宏基因组与美国宏基因组的差异程度。
通过比较k-mers,该方法在两种数据类型中都显示出比使用传统映射与参考集时更好的结果。此外,当使用真实数据时,k-mer和传统方法的肠道结果之间的不匹配使得研究人员能够检测到肠道宏基因组的另一个重要组成部分 - 即细菌噬菌体crAssphage,它已经逃脱了研究人员使用传统方法。该文章的作者Dmitri Alexeev说:“有趣的是,这些基因不仅可以被看作是带有编码在其中的蛋白质的DNA片段,而且可以被视为一般的信息。正是这种信息的区别使我们能够识别新的已知基因目录中没有描述的DNA片段。看看其他研究小组如何使用这种方法很有趣。“
该技术使研究人员能够更有效,更准确地发现各种细菌群落的宏基因组之间的差异,这有助于研究,诊断和治疗许多人类疾病。