使用MaSuRCA进行基因组组装
1. MaSuRCA 简介
MaSuRCA(Maryland Super Read Cabog Assembler)基因组组装软件集合了 de Bruijn 和 Overlap-Layout-Consensus 的优点。
文献:Zimin A V, Marçais G, Puiu D, et al. The MaSuRCA genome assembler[J]. Bioinformatics, 2013, 29(21): 2669-2677.
2. MaSuRCA 下载和安装
1 2 3 4 | $ wget wget ftp://ftp.genome.umd.edu/pub/MaSuRCA/MaSuRCA-2.2.1.tar.gz $ tar zxf MaSuRCA-2.2.1.tar.gz -C /opt/biosoft $ cd /opt/biosoft/MaSuRCA-2.2.1 $ ./install.sh |
3. MaSuRCA 使用
3.1 配置文件准备
将模板配置文件 “/opt/biosoft/MaSuRCA-2.2.1/sr_config_example.txt” 拷贝到当前工作目录,并修改之。此配置文件含有输入文件和参数 的一些信息。内容如下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 | # 测序数据的信息。分为 3 种类型:PE JUMP OTHER。每种类型的数据后接 5 列:1)2 个字符的前缀;2)平均插入片段长度;3)插入片段长度标准差;4)fastq(.gz)格式的 reads1; 5)fastq(.gz)格式的 reads2。如果有 jump 数据是 FR 类型,则,则使用 JUMP,但是平均插入片段长度为负数。其它的数据,则必须要转换成 Celera 兼容的 .frg 文件。 DATA PE= p1 180 20 180_1.fastq 180_2.fastq PE= p2 500 50 500_1.fastq 500_2.fastq JUMP= j1 2000 200 2000_1.fastq 2000_2.fastq JUMP= j2 5000 500 5000_1.fastq 5000_2.fastq OTHER= file.frg END PARAMETERS # 设置 k-mer size,大小为 25~101,或者为 auto,表示自动计算最优值。 GRAPH_KMER_SIZE=auto # 如果仅分析 Illumina 数据,则值为 1;如果有 1x 及以上的 454 数据,则设置为 0。 USE_LINKING_MATES=1 # 如果 jumping library 的数据过多,可能会 confuse the assembler,设置此值为 60,则仅使用 60x 左右的 jumping 数据用于基因组组 装。对于细菌基因组,一般设置为 60。如果基因组较大,则设置此值大些。对于一些较大的真核基因组,可以大至 1000。 LIMIT_JUMP_COVERAGE = 60 # Celera Assembler 的参数。如果是 mammals 的基因组,cgwErrorRate的值不能高于 0.15。 CA_PARAMETERS = ovlMerSize=30 cgwErrorRate=0.25 ovlMemory=4GB # 舍弃频数低于此值的 k-mer。如果覆盖度大于 100,可以设置此值为 2。 KMER_COUNT_THRESHOLD = 1 # 设置使用的线程数。 NUM_THREADS= $NUM_THREADS # 设置 jellyfish 的 hash size。此值可以设置为 "基因组大小+reads的数目"。 JF_SIZE=100000000 # 设置是否 trim long reads 的 3' homopolymers(e.g. GGGGGGG)。适合于高 GC 含量的基因组。 DO_HOMOPOLYMER_TRIM=0 END |
3.2 运行 masurca 和 assemble.sh 进行基因组组装
运行程序 masurca,生成 assemble.sh; 然后运行 assemble.sh 进行组装。
1 2 | $ /opt/biosoft/MaSuRCA-2.2.1/bin/masurca config.txt $ ./assemble.sh |
3.3 运行中断后继续运行
由于程序出错,或手动终止后,可以终止步骤所生成的文件,在继续运行 masurca ,生成含有后续步骤的 assemble.sh,再继续运行程序。
4. 结果文件
最终的结果文件为 CA/10-gapclose/genome.ctg.fasta 。
原文来自:http://www.chenlianfu.com/?p=2107
相关推荐:
- NCBI在线BLAST使用方法与结果详解 2931
- 神经网络术语:Epoch、Batch Size和迭代 527
- Consed的安装与使用教程 461
- 陈连福的NGS生物信息学培训教材V2.1 277
- WGCNA分析使用教程 265
-
***masurca configuration.txt 未 1970-01-01 08:00#2
-
***1514033532 2014-12-09 20:51#3
~/DNA/zuzhuang/MaSuRCA-2.3.2/bin$ masurca configuration.txt 未找到命令????
-
***1123 2014-12-24 10:46#4
line 35 是end函数在最后一行,提示end不行;runCA OKcreateSuperReadsForDirectory.perl OKError: Modification of a read-only value attempted at masurca line 107, line 35.
-
***2minky 2015-03-09 10:10#5
一样的问题,但我这里illumina数据运行没有问题,是454数据用fastqToCA生成frg后运行出现这个错误
-
***1Harry 2015-07-13 17:17#6
ERROR: Failed with signal HUP (1)runCA failed.gatekeeper failed出现这些错误是什么回事
最新创建圈子
-
原料药研发及国内外注册申报
2019-01-25 10:41圈主:caolianhui 帖子:33 -
制药工程交流
2019-01-25 10:40圈主:polysciences 帖子:30 -
健康管理
2019-01-25 10:40圈主:neuromics 帖子:20 -
发酵技术
2019-01-25 10:39圈主:fitzgerald 帖子:17 -
医学肿瘤学临床试验
2019-01-25 10:39圈主:bma 帖子:58
Configuration. To run the assembler, one must first create a configuration file that specifies the location of the executables, data and assembly parameters for the assembler. The installation script will create a sample config file ‘sr_config_example.txt’. Lines starting with a pound sign (‘#’) are comments and ignored. The sample configuration file looks like this.