使用MaSuRCA进行基因组组装

楼主收藏举报帖子创建时间: 2018-03-26 00:00 回复：6 关注量：141

1. MaSuRCA 简介

MaSuRCA(Maryland Super Read Cabog Assembler)基因组组装软件集合了 de Bruijn 和 Overlap-Layout-Consensus 的优点。
文献：Zimin A V, Marçais G, Puiu D, et al. The MaSuRCA genome assembler[J]. Bioinformatics, 2013, 29(21): 2669-2677.

2. MaSuRCA 下载和安装

$ wget wget ftp://ftp.genome.umd.edu/pub/MaSuRCA/MaSuRCA-2.2.1.tar.gz

$ tar zxf MaSuRCA-2.2.1.tar.gz -C /opt/biosoft

$ cd /opt/biosoft/MaSuRCA-2.2.1

$ ./install.sh

3. MaSuRCA 使用

3.1 配置文件准备

将模板配置文件 “/opt/biosoft/MaSuRCA-2.2.1/sr_config_example.txt” 拷贝到当前工作目录，并修改之。此配置文件含有输入文件和参数的一些信息。内容如下：

# 测序数据的信息。分为 3 种类型：PE JUMP OTHER。每种类型的数据后接 5 列：1）2 个字符的前缀；2）平均插入片段长度；3）插入片段长度标准差；4）fastq(.gz)格式的 reads1; 5）fastq(.gz)格式的 reads2。如果有 jump 数据是 FR 类型，则，则使用 JUMP，但是平均插入片段长度为负数。其它的数据，则必须要转换成 Celera 兼容的 .frg 文件。

DATA

PE= p1 180 20 180_1.fastq 180_2.fastq

PE= p2 500 50 500_1.fastq 500_2.fastq

JUMP= j1 2000 200 2000_1.fastq 2000_2.fastq

JUMP= j2 5000 500 5000_1.fastq 5000_2.fastq

OTHER= file.frg

END

PARAMETERS

# 设置 k-mer size，大小为 25~101，或者为 auto，表示自动计算最优值。

GRAPH_KMER_SIZE=auto

# 如果仅分析 Illumina 数据，则值为 1；如果有 1x 及以上的 454 数据，则设置为 0。

USE_LINKING_MATES=1

# 如果 jumping library 的数据过多，可能会 confuse the assembler，设置此值为 60，则仅使用 60x 左右的 jumping 数据用于基因组组装。对于细菌基因组，一般设置为 60。如果基因组较大，则设置此值大些。对于一些较大的真核基因组，可以大至 1000。

LIMIT_JUMP_COVERAGE = 60

# Celera Assembler 的参数。如果是 mammals 的基因组，cgwErrorRate的值不能高于 0.15。

CA_PARAMETERS = ovlMerSize=30 cgwErrorRate=0.25 ovlMemory=4GB

# 舍弃频数低于此值的 k-mer。如果覆盖度大于 100，可以设置此值为 2。

KMER_COUNT_THRESHOLD = 1

# 设置使用的线程数。

NUM_THREADS= $NUM_THREADS

# 设置 jellyfish 的 hash size。此值可以设置为 "基因组大小+reads的数目"。

JF_SIZE=100000000

# 设置是否 trim long reads 的 3' homopolymers（e.g. GGGGGGG)。适合于高 GC 含量的基因组。

DO_HOMOPOLYMER_TRIM=0

END

3.2 运行 masurca 和 assemble.sh 进行基因组组装

运行程序 masurca，生成 assemble.sh; 然后运行 assemble.sh 进行组装。

1 2	$ /opt/biosoft/MaSuRCA-2.2.1/bin/masurca config.txt $ ./assemble.sh

3.3 运行中断后继续运行

由于程序出错，或手动终止后，可以终止步骤所生成的文件，在继续运行 masurca ，生成含有后续步骤的 assemble.sh，再继续运行程序。

4. 结果文件

最终的结果文件为 CA/10-gapclose/genome.ctg.fasta 。

原文来自：http://www.chenlianfu.com/?p=2107

***1514033532 2014-12-09 20:50
#1

Configuration. To run the assembler, one must first create a configuration file that specifies the location of the executables, data and assembly parameters for the assembler. The installation script will create a sample config file ‘sr_config_example.txt’. Lines starting with a pound sign (‘#’) are comments and ignored. The sample configuration file looks like this.
***masurca configuration.txt 未 1970-01-01 08:00
#2
***1514033532 2014-12-09 20:51
#3

~/DNA/zuzhuang/MaSuRCA-2.3.2/bin$ masurca configuration.txt 未找到命令????
***1123 2014-12-24 10:46
#4

line 35 是end函数在最后一行，提示end不行；runCA OKcreateSuperReadsForDirectory.perl OKError: Modification of a read-only value attempted at masurca line 107, line 35.
***2minky 2015-03-09 10:10
#5

一样的问题,但我这里illumina数据运行没有问题，是454数据用fastqToCA生成frg后运行出现这个错误
***1Harry 2015-07-13 17:17
#6

ERROR: Failed with signal HUP (1)runCA failed.gatekeeper failed出现这些错误是什么回事

***1514033532 帖子创建时间: 2014-12-09 20:50

Configuration. To run the assembler, one must first create a configuration file that specifies the location of the executables, data and assembly parameters for the assembler. The installation script will create a sample config file ‘sr_config_example.txt’. Lines starting with a pound sign (‘#’) are comments and ignored. The sample configuration file looks like this.

***1514033532 帖子创建时间: 2014-12-09 20:51

~/DNA/zuzhuang/MaSuRCA-2.3.2/bin$ masurca configuration.txt 未找到命令????

使用MaSuRCA进行基因组组装

楼主 | 收藏 | 举报 2018-03-26 00:00 浏览: 141 回复: 6

1. MaSuRCA 简介

2. MaSuRCA 下载和安装

$ wget wget ftp://ftp.genome.umd.edu/pub/MaSuRCA/MaSuRCA-2.2.1.tar.gz

$ tar zxf MaSuRCA-2.2.1.tar.gz -C /opt/biosoft

$ cd /opt/biosoft/MaSuRCA-2.2.1

$ ./install.sh

3. MaSuRCA 使用

3.1 配置文件准备

将模板配置文件 “/opt/biosoft/MaSuRCA-2.2.1/sr_config_example.txt” 拷贝到当前工作目录，并修改之。此配置文件含有输入文件和参数的一些信息。内容如下：

DATA

PE= p1 180 20 180_1.fastq 180_2.fastq

PE= p2 500 50 500_1.fastq 500_2.fastq

JUMP= j1 2000 200 2000_1.fastq 2000_2.fastq

JUMP= j2 5000 500 5000_1.fastq 5000_2.fastq

OTHER= file.frg

END

PARAMETERS

# 设置 k-mer size，大小为 25~101，或者为 auto，表示自动计算最优值。

GRAPH_KMER_SIZE=auto

# 如果仅分析 Illumina 数据，则值为 1；如果有 1x 及以上的 454 数据，则设置为 0。

USE_LINKING_MATES=1

LIMIT_JUMP_COVERAGE = 60

# Celera Assembler 的参数。如果是 mammals 的基因组，cgwErrorRate的值不能高于 0.15。

CA_PARAMETERS = ovlMerSize=30 cgwErrorRate=0.25 ovlMemory=4GB

# 舍弃频数低于此值的 k-mer。如果覆盖度大于 100，可以设置此值为 2。

KMER_COUNT_THRESHOLD = 1

# 设置使用的线程数。

NUM_THREADS= $NUM_THREADS

# 设置 jellyfish 的 hash size。此值可以设置为 "基因组大小+reads的数目"。

JF_SIZE=100000000

# 设置是否 trim long reads 的 3' homopolymers（e.g. GGGGGGG)。适合于高 GC 含量的基因组。

DO_HOMOPOLYMER_TRIM=0

END

3.2 运行 masurca 和 assemble.sh 进行基因组组装

运行程序 masurca，生成 assemble.sh; 然后运行 assemble.sh 进行组装。

1 2	$ /opt/biosoft/MaSuRCA-2.2.1/bin/masurca config.txt $ ./assemble.sh

3.3 运行中断后继续运行

由于程序出错，或手动终止后，可以终止步骤所生成的文件，在继续运行 masurca ，生成含有后续步骤的 assemble.sh，再继续运行程序。

4. 结果文件

最终的结果文件为 CA/10-gapclose/genome.ctg.fasta 。

原文来自：http://www.chenlianfu.com/?p=2107

楼主 | 收藏 | 举报 2018-03-26 00:00 浏览: 141 回复: 6

1. MaSuRCA 简介

2. MaSuRCA 下载和安装

$ wget wget ftp://ftp.genome.umd.edu/pub/MaSuRCA/MaSuRCA-2.2.1.tar.gz

$ tar zxf MaSuRCA-2.2.1.tar.gz -C /opt/biosoft

$ cd /opt/biosoft/MaSuRCA-2.2.1

$ ./install.sh

3. MaSuRCA 使用

3.1 配置文件准备

将模板配置文件 “/opt/biosoft/MaSuRCA-2.2.1/sr_config_example.txt” 拷贝到当前工作目录，并修改之。此配置文件含有输入文件和参数的一些信息。内容如下：

DATA

PE= p1 180 20 180_1.fastq 180_2.fastq

PE= p2 500 50 500_1.fastq 500_2.fastq

JUMP= j1 2000 200 2000_1.fastq 2000_2.fastq

JUMP= j2 5000 500 5000_1.fastq 5000_2.fastq

OTHER= file.frg

END

PARAMETERS

# 设置 k-mer size，大小为 25~101，或者为 auto，表示自动计算最优值。

GRAPH_KMER_SIZE=auto

# 如果仅分析 Illumina 数据，则值为 1；如果有 1x 及以上的 454 数据，则设置为 0。

USE_LINKING_MATES=1

LIMIT_JUMP_COVERAGE = 60

# Celera Assembler 的参数。如果是 mammals 的基因组，cgwErrorRate的值不能高于 0.15。

CA_PARAMETERS = ovlMerSize=30 cgwErrorRate=0.25 ovlMemory=4GB

# 舍弃频数低于此值的 k-mer。如果覆盖度大于 100，可以设置此值为 2。

KMER_COUNT_THRESHOLD = 1

# 设置使用的线程数。

NUM_THREADS= $NUM_THREADS

# 设置 jellyfish 的 hash size。此值可以设置为 "基因组大小+reads的数目"。

JF_SIZE=100000000

# 设置是否 trim long reads 的 3' homopolymers（e.g. GGGGGGG)。适合于高 GC 含量的基因组。

DO_HOMOPOLYMER_TRIM=0

END

3.2 运行 masurca 和 assemble.sh 进行基因组组装

运行程序 masurca，生成 assemble.sh; 然后运行 assemble.sh 进行组装。

1 2	$ /opt/biosoft/MaSuRCA-2.2.1/bin/masurca config.txt $ ./assemble.sh

3.3 运行中断后继续运行

由于程序出错，或手动终止后，可以终止步骤所生成的文件，在继续运行 masurca ，生成含有后续步骤的 assemble.sh，再继续运行程序。

4. 结果文件

最终的结果文件为 CA/10-gapclose/genome.ctg.fasta 。

原文来自：http://www.chenlianfu.com/?p=2107

全部行业分类

生物软件

使用MaSuRCA进行基因组组装

1. MaSuRCA 简介

2. MaSuRCA 下载和安装

3. MaSuRCA 使用

3.1 配置文件准备

3.2 运行 masurca 和 assemble.sh 进行基因组组装

3.3 运行中断后继续运行

4. 结果文件

本文作者

Ta的圈贴

最新创建圈子

最新话题

使用MaSuRCA进行基因组组装

1. MaSuRCA 简介

2. MaSuRCA 下载和安装

3. MaSuRCA 使用

3.1 配置文件准备

3.2 运行 masurca 和 assemble.sh 进行基因组组装

3.3 运行中断后继续运行

4. 结果文件

1. MaSuRCA 简介

2. MaSuRCA 下载和安装

3. MaSuRCA 使用

3.1 配置文件准备

3.2 运行 masurca 和 assemble.sh 进行基因组组装

3.3 运行中断后继续运行

4. 结果文件

全部行业分类

生物软件

使用MaSuRCA进行基因组组装

1. MaSuRCA 简介

2. MaSuRCA 下载和安装

3. MaSuRCA 使用

3.1 配置文件准备

3.2 运行 masurca 和 assemble.sh 进行基因组组装

3.3 运行中断后继续运行

4. 结果文件

相关推荐：

本文作者

Ta的圈贴

最新创建圈子

最新话题

使用MaSuRCA进行基因组组装

1. MaSuRCA 简介

2. MaSuRCA 下载和安装

3. MaSuRCA 使用

3.1 配置文件准备

3.2 运行 masurca 和 assemble.sh 进行基因组组装

3.3 运行中断后继续运行

4. 结果文件

1. MaSuRCA 简介

2. MaSuRCA 下载和安装

3. MaSuRCA 使用

3.1 配置文件准备

3.2 运行 masurca 和 assemble.sh 进行基因组组装

3.3 运行中断后继续运行

4. 结果文件