纳米孔测序检测DNA甲基化准确率达99%，王凯、肖传乐等Nature子刊发表新算法

发布日期：2019-06-06 来源：戴胜浏览次数：199

DNA甲基化作为表观遗传学的重要现象之一，在调控基因组印记、X染色体失活、转座子抑制、表观遗传“记忆”维持和肿瘤发生等生命过程中起重要作用。目前DNA表观修饰检测方法主要有两种:重亚硫酸盐转化测序法和免疫沉淀测序法。重亚硫酸盐转化测序法将未甲基化的胞嘧啶转化为尿嘧啶后通过二代测序进行检测，但是缺点是转化效率受限以及短读取测序对于基因组重复区域不能准确鉴定；而免疫沉淀测序法能够检测DNA或RNA甲基化修饰，但达不到单碱基分辨率。

新兴的第三代测序技术（PacBio SMRT和Nanopore测序）能够直接检测DNA甲基化修饰：PacBio SMRT测序通过荧光信号时间延迟效应检测DNA修饰；Nanopore测序通过碱基附近的电信号会发生变化检测DNA修饰。PacBio修饰检测准确度依赖于较高高的覆盖度，高额的测序成本严重制约了其应用于表观修饰检测。Nanopore测序的电信号对碱基修饰比较敏感，而且其测序成本低廉，因此Nanopore测序检测表观修饰或将成为未来主流方向。

费城儿童医院王凯教授团队、中山大学中山眼科中心肖传乐教授团队和北京希望组公司团队于6月4日，在Nature Communications杂志上联合发表题为“Detection of DNA base modifications by deep recurrent neural network on Oxford Nanopore sequencing data”的研究论文，建立了识别Nanopore表观修饰的深度循环神经网络模型，并开发了相应的软件DeepMod。

图1. 该文章发表在Nature Communications

深度循环神经网络广泛应用于人工智能领域，如手写识别、语音识别等序列特征建模。研究者采用LSTM-RNN深度循环神经网络作为深度学习框架（图2），采取两种独立的策略利用多个Nanopore测序数据集进行训练和校正，完成了5mC和6mA检测模型的建立。

图2. DeepMod流程图

随后，研究者利用建立好的模型对大肠杆菌和人NA12878数据集的5mC修饰进行预测，检测平均精度高达99%，达到全基因组单碱基分辨率（图3）。接着，NA12878的1-10号染色体被用于训练模型，利用该模型对人HX1和大肠杆菌数据集进行预测，同样展示出精确的5mC预测结果，表明基于某一物种进行训练的DeepMod具有跨物种表观修饰检测能力。最后，利用大肠杆菌和莱茵衣藻数据集对6mA模型进行评估，表现出将近90%的预测精度和跨物种预测能力（图4）。

图3. DeepMod对大肠杆菌5mC预测性能的评价

图4. DeepMod对大肠杆菌6mA预测性能的评价

综上所述，该研究为Nanopore应用于表观修饰领域提供了重要的软件工具—DeepMod。首次将5mC的准确率提高到99%，实现了5mC的精准检测；首次建立了原核和真核通用6mA和5mC检测方法；并建立了首个Nanopore真核生物6mA修饰标准集。

随着Nanopore测序的发展，包含有表观修饰信息的ONT测序数据飞速增加，DeepMod优异的全基因组水平5mC和6mA检测性能，跨物种通用检测能力，扩展到其他类型DNA修饰的巨大潜力，将为Nanopore测序数据的表观修饰信息挖掘提供重要帮助。

作者简介

文章第一作者

刘乾博士，新加坡南洋理工大学生物信息工程博士毕业。先后在新加坡、澳大利亚和美国从事蛋白质结构分析，序列数据挖掘，Pacbio和Nanopore长序列数据分析和方法设计等方面的研究。并先后开发RepeatHMM，NanoMod和DeepMod等长序列分析工具用于评估致病DNA短序列重复和探测DNA修饰。目前在Bioinformatics, Genome medicine, Nature Communications等国际期刊和会议上发表高水平文章34篇，其中一作（并列一作）文章20篇。

文章通讯作者

王凯

王凯，美国宾夕法尼亚大学病理系副教授，兼任费城儿童医院细胞与分子治疗中心研究员。发展了PennCNV, ANNOVAR, InterVar, RepeatHMM，Phenolyzer和EHR-Phenolyzer等基因组分析软件。发表第一个基于纯三代组装策略的亚洲人基因组接近完成图“华夏一号”。发表了150余篇文章，被引用25000余次。

肖传乐

肖传乐，生物信息学博士，中山大学中山眼科中心副研究员，独立PI，长期从事三代测序关键计算方法开发及应用研究。先后合作开发了PacBio快速组装方法（MECAT），Nanopore组装方法（NECAT）和Nanopore表观修饰检测方法（DeepMod），这些方法已成为三代测序计算分析重要组成部分，被国内外广泛关注和应用。本人以第一和通讯作者在Nature Methods，Molecular Cell和Nature Communications等杂志上发表SCI论文二十余篇。