阅读基因组的能力 - 生物体的所有DNA - 具有了解人类健康和疾病的巨大潜力。Garvan医学研究所和悉尼新南威尔士大学的研究人员已经发布了一种方法,通过调整可以执行准确分析的计算机算法,使基因组分析“离线” - 远远少于当前程序的计算机内存。科学家的算法可以使用像智能手机一样小的设备的计算存储器来识别远程位置或医院床边的传染病。
他们于2019年3月13日在科学报告中公布了他们的发现。
没有边界的基因组学
可以对整个基因组进行测序的设备,如牛津纳米孔技术MinION测序仪,今天足够小,可以夹在智能手机上 - 并已用于追踪新几内亚的埃博拉病毒和巴西的寨卡病毒。
这样的装置能够在48小时内产生超过1TB的数据,但是它们的使用受到限制,因为将来自未知样品的DNA与已知基因组的参考数据库进行比较或“比对”是计算密集型的。到目前为止,只有高性能计算机工作站或互联网连接才能实现此过程。
现在,Garvan研究所Kinghorn临床基因组学中心的基因组技术团队负责人Martin Smith博士和他的团队已经发布了一种计算方法,用于减少将基因组序列从16GB调整到2GB所需的内存量,从而实现使用典型智能手机中的可用内存进行现场分析。
“我们专注于使基因组技术更易于改善人类健康。它们变得越来越小,但仍然需要在偏远地区运作,因此我们创建了一种可以在移动设备上实时分析基因组数据的方法设备,“史密斯博士解释说。
分而治之
该团队采用了Minimap2计划,该计划将DNA测序'读数'与已知基因组的参考文库进行对齐。通常对参考文库进行分类或索引,这有助于快速将测序读数映射到参考基因组中的相应位置。
“到目前为止,挑战一直是参考索引需要太多的计算机内存,”史密斯博士解释道。“我们采用了将参考文库分割成更小的片段的方法,我们对其进行了DNA读取的映射。一旦我们完成了对较小片段的映射,我们将结果汇集在一起并梳理出噪声,就像通过拼接一起创建全景图片一样较小的照片。“
“其他算法采用类似的方法来分割参考数据,会产生大量的虚假和重复映射 - 就像在全景图中重叠照片一样。我们在这项研究中所做的是微调参数并选择最佳映射几种小指数。这种方法给我们提供了与目前标准基因组分析相似的精确度,以前需要高性能计算机中的内存,“史密斯博士说。
史密斯博士的团队将其算法的准确性与标准基因组学工作流程进行了比较。他们的结果不仅重现了99.98%的比对,而且通过使用较小的索引片段,团队可以绘制另外1%的测序读数。
史密斯博士对他的技术持乐观态度。“轻量级,便携式基因组分析的潜力巨大 - 我们希望这项技术有朝一日能应用于偏远地区的医疗点微生物感染,或医院病床医生手中,”Dr博士说。史密斯。