三代测序数据pacbio数据处理
三代测序仪现在逐步投入正式使用之中,目前三代测序例如pacbio数据大的特点之一就是测序得到的reads特别长,最近我开展的一个项目中利用pacbio测序的到的reads中最长的到了23165bp,平均长度4033bp。虽然reads读长比较长,但是可靠性比较低,因此不能向一代、二代数据那样直接用于基因组拼接等。因而在使用之前我们需要利用一些来自454,illumina等平台的高质量二代数据对其进行correction,从原始的长reads中截取保守的高质量的短reads。以下分享利用pacBioToCA做correction的一般流程和方法。
首先pacBioToCA这个程序包含在wgs-assembler这个软件包中。该软件更多介绍以及下载地址:http://sourceforge.net/apps/mediawiki/wgs-assembler/index.php?title=Main_Page。
下载该软件之后按照以下的方法进行解压和安装
bzip2 -dc wgs-7.0.tar.bz2 | tar -xf -
cd wgs-7.0
cd kmer
gmake install
cd ../src
gmake
cd ..
但是在进行编译操作之前,需要对这个代码做一个简单的修改,因为默认该软件支持的最长的reads长度为2048bp,但是pacbio的reads会到20多kb。因此解压wgs-assembler 这个软件包之后,在wgs-assembler/src 这个文件夹里面有一个AS_global.h,将其206行的
#define AS_READ_MAX_NORMAL_LEN_BITS 11
改成
#define AS_READ_MAX_NORMAL_LEN_BITS 15
这样支持的最长的reads长度由2^11 (2048bp),变成2^15 (32768bp)了。
CA这个软件利用各种平台的数据(例如454平台,illumina),或者不同格式的数据(fasta,fastq,sff等)数据前需要,需要将其转换成一个.frg文件。CA软件中针对来自不同测序平台的数据,有不同的转换软件,例如fasta格式数据:fastaToCA,fastq格式数据:fastqToCA,sff格式数据:sffToCA。
在做correction的时候会用到其他的平台的高质量reads数据,因此需要用相应的转换软件,将该reads数据转换一下生成相应.frg文件。对pacbio数据的correction也是一个pacbio reads的转换软件 pacBioToCA。
pacBioToCA的参数如下:
usage: pacBioToCA [options] -s spec.file -fastq fastqfile <frg>
-length Minimum length to keep.
-partitions Number of partitions for consensus
-sge Submit consensus jobs to the grid
-sgeCorrection Parameters for the correction step for the grid. This should match the threads specified below, for example by using -pe threaded
-l libraryname Name of the library; freeformat text.
-t threads Number of threads to use for correction.
由此可见在运行pacBioToCA时需要其他平台reads的frg文件。
更多详细的关于pacBioToCA介绍以及其他格式数据的转换,请阅读 http://www.leekatz.com/wiki/index.php?title=Bioinformatics/pacBioToCA。
目前我自己对pacbio的数据处理和使用经验也不是很充分,后续将结合自己的经验和别人的分享在做进一步整理和总结,也欢迎各位同学分享。
更多其它可参考的资料如下:
sourceforge上关于pacBioToCA的信息:http://sourceforge.net/apps/mediawiki/wgs-assembler/index.php?title=PacBioToCA
wgs-assembler软件介绍:http://sourceforge.net/apps/mediawiki/wgs-assembler/index.php?title=Main_Page
相关推荐:
- NCBI在线BLAST使用方法与结果详解 2938
- 神经网络术语:Epoch、Batch Size和迭代 527
- Consed的安装与使用教程 465
- 陈连福的NGS生物信息学培训教材V2.1 277
- WGCNA分析使用教程 272
最新创建圈子
-
原料药研发及国内外注册申报
2019-01-25 10:41圈主:caolianhui 帖子:33 -
制药工程交流
2019-01-25 10:40圈主:polysciences 帖子:30 -
健康管理
2019-01-25 10:40圈主:neuromics 帖子:20 -
发酵技术
2019-01-25 10:39圈主:fitzgerald 帖子:17 -
医学肿瘤学临床试验
2019-01-25 10:39圈主:bma 帖子:58
我也想问这个问题