本周在ITF Health 2018上,imec是纳米电子和数字技术领域世界领先的研究和创新中心,展示了elPrep 4.0,这是一款加速人类DNA测序分析的强大软件工具。elPrep将整个基因组和外显子组加工管道加速到一个数量级,为典型的实验室节省了数百小时的计算机处理时间,并允许更多更快的DNA测试。elPrep 4.0旨在替代GATK(基因组分析工具包)最佳实践管道中为变体调用定义的准备步骤,同时提供相同的结果。
DNA测序涉及将人类基因组分成数千个片段,然后将其送入测序机器以鉴定各个碱基。这导致巨大的数据文件通过工具管道处理以从片段重建原始DNA序列并标记可能指向例如遗传病症(也称为变体调用)的变体。人全基因组DNA的数据集通常在几百GB的未压缩数据的数量级上,导致每个基因组的处理运行时间通常为数十小时。
elPrep软件旨在将DNA测序分析加速到一个数量级。新版本4.0执行所有准备步骤,直到变体调用。它取代了其他DNA测序分析软件,如GATK4.0,Picard和SAMtools,同时产生相同的结果。让elPrep脱颖而出的是它的体系结构,它允许通过只进行一次数据传输来执行管道,无论管道有多长。
elPrep被设计为一个完全在内存中运行的多线程应用程序,避免了重复的文件I / O,并合并了几个DNA序列准备步骤的数据计算。因此,在典型的运行中,elPrep比使用相同资源的其他软件工具快十倍。它被设计为无缝替代品,提供与Broad Institute开发的GATK4.0完全相同的结果。elPrep是用Go编程语言编写的,可以通过开源GNU Affero通用公共许可证v3(AGPL-3.0)获得。
Imec的ExaScience Life Lab是一个imec实验室,专注于为数据密集型高性能计算问题提供软件解决方案,主要是在生命科学领域。它解决了数据密集型计算瓶颈,并通过这样做帮助公司为涉及多个学科的复杂问题开发解决方案。成功项目的例子包括制药公司的大规模机器学习,医院和制药公司的DNA测序软件,化验图像特征提取,先进的生物统计学和数据分析,甚至多物理空间天气模拟。关于elPrep 4.0的工作部分由imec.icon研究项目GAP资助,该项目是与Bluebee,Western Digital合作,为医院全基因组测序优化ICT基础设施的研究项目,