Consed的安装与使用教程

楼主  收藏   举报   帖子创建时间:  2018-07-10 00:00 回复:1 关注量:451

简介

Consed 是一款非常强大的图形化 finish 软件,由 David Gordon 等人于 1998 年发布, 目前已更新至 15.0 版本。

现在 consed 已经成为基因组 finish 的标准工具,它为组装正确性的验证提供了一个直观 的界面,能够方便的进行组装的各项统计并绘图,对结果进行比对分析,并能实现对组装结果进 行拆分、重组等等功能。同时还可以通过峰图的比较来查找或者验证 SNP。

该软件需要在支持图形界面的 X-win32 环境下操作,软件的使用需要获得作者的授权。

下载

Consed 软件需要到  phrap 网站 申请, 申请 成功后 下载 相应操 作系 统的版 本, 如

consed_linux.tar.z。 申请地址:http://bozeman.mbt.washington.edu/consed/consed.html

安装

1. 将软件包上传到大型机上

2. 解压缩 zcat consed_linux.tar.Z | tar -xvf -

3. 环境变量配置

1)默认 CONSE_HOME 为/usr/local/genome,如果不使用这个目录,请建立相关链接, 并修改环境变量设置(.cshrc 或其他 shell 的配置文件):setenv CONSED_HOME xxx,xxx 为 consed 安装的目录。

2 )建 立 $CONSED_HOME/bin 和 $CONSED_HOME/lib 目录,可 执行 文件全 部放 到

$CONSED_HOME/bin 目录下

Consed 需要使用其他的一些软件,如:phred, phrap, crossmatch,这些文件需放到

/usr/local/genome/bin 目录下,或$CONSED_HOME/bin。

对于软件 phred,联系:bge@u.washington.edu (Brent Ewing)

对于软件 phrap 和 crossmatch, 联系:phg@u.washington.edu (Phil Green)

3)  编译 phd2fasta:

到 misc/phd2fasta 目录,键入命令'make'编译 phd2fasta,然后将 phd2fasta 可执行文件移到目录 /usr/local/genome/bin 或 $CONSED_HOME/bin)

4)  编译 mktrace:

到 misc/mktrace 目录,键入命令'make'编译 mktrace,然后将 mktrace 可执行文件 移到目录 /usr/local/genome/bin 或 $CONSED_HOME/bin)

5)  将所有的 perl 程序 ( scripts目录和contributions目录下)移到目录

/usr/local/genome/bin或 $CONSED_HOME/bin),并修改权限为可执行(chmod a+x *)

6 )如果系 统  perl 不是安装在 /usr/bin/ 下,需将每 个  perl 程序的开头 位置

#!/usr/bin/perl -w 改成相应的路径。

7) 建立子目录 /usr/local/genome/lib/screenLibs 或$CONSED_HOME/lib/screenLibs,将目录 misc 下的文件 primerCloneScreen.seq 和primerSubcloneScreen.seq 拷到此目录下。

8)建立载体序列文件(FASTA 格式):

/usr/local/genome/lib/screenLibs/vector.seq (或$CONSED_HOME/lib/screenLibs/vector.seq。此文件包含所有载体序列。

9)建立重复序列文件(FASTA 格式):

/usr/local/genome/lib/screenLibs/repeats.fasta,(或 $CONSED_HOME/lib/screenLibs/repeats.fasta)。如果不想标注任何重复序 列,将 phredPhrap 相关的行屏蔽掉即可(行前加#号),即:

 !system( "$tagRepeats $szAceFileToBeProduced" )

|| die "some problem running $tagRepeats";

改为:

 #!system( "$tagRepeats $szAceFileToBeProduced" )

#  || die "some problem running $tagRepeats";

输入

Consed 的输入文件是 phrap 组装生成的*.ace 文件和组装用到的 reads 的 phd、峰图文件。这些文件必须以如下方式存放: 一个存放峰图文件的目录,目录名必须是 chromat_dir;

一个存放 phred 读取峰图输出的文件——phd 文件的目录,目录名必须是 phd_dir; 一个供 consed 编辑的工作目录,目录名任意(通常命名为 edit_dir),里面存放 ace 文件。

三个目录必须同级放置。如:

[liudy@119 bash /disk2/team06/liudy/test/test_consed]$ls -lFt total 72

drwxr-xr-x    2 liudy    prj0327     4096 Sep 22 02:01 edit_dir/

drwxr-xr-x    2 liudy    prj0327     20480 Sep 18 03:21 phd_dir/

drwxr-xr-x    2 liudy    prj0327     16384 Sep 18 03:21 chromat_dir/

使用

满足上述输入条件以后,在目录“edit_dir”下直接键入"consed"即可运行程序,程序 打开以后会弹出一个选择输入的 ace 文件的窗口:

consed 的输入选择界面

图 2-5 consed 的输入选择界面

如果 phd_dir 目录缺失却需要强行打开 consed,必须加"-nophd"参数运行才能打开consed 界面,否则会报错退出。而在"-nophd"参数下,consed 的很多功能都无法实现,包 括查看每个 read 的质量、调整组装结果等等。而如果 chromat_dir 缺失,则不能查看 reads 的原始峰图。通常运行 consed 的时候都要求至少绝大多数 reads 的 phd 文件都存在。

以下的所有功能的实现都是在 consed 目录结构完整,reads 路径对应正确,并且参数配 备无误的情况进行的。

1.主界面布局:

主界面"Consed Main Window" read 列表。

从上到下依次排列了菜单区、功能键、contig列表和Contig 列表中的所有 contigs 按照包含 reads 从少到多的顺序排列。窗口中显示了contig 名称、拼成 contig 的 reads 数和 contig 的总长度等信息。

Read 列表中显示了每一个 read 在拼接结果中属于哪一个 contig、read 长度和在 contig上的拼接位置。

Contig 列表和 read 列表的下方分别有一个搜索区,可以输入 contig 或者 read 的名称 进行模糊,搜索区支持模糊搜索的功能。

consed 的主界面

图 2-6 就是 consed 的主界面:

2.检查 contig 的组装质量:

在 contig 列表中双击一个 contig的名字,会弹出这个 contig 的窗口。窗口中以图形的方式显示了此 contig 的 组 装 情 况 。 最 上 面 一 行 的 碱 基 表 示 组 装 完 成 的 contig 序列(consensus),下面的每一行表示组成 contig 的每一条 read,在窗口的左端显示了每一条 read 的名字,名字后面的箭头代表 read 的测序方向。拼接质量是由碱基的背景色表示的,背 景色浅表示质量好,反之表示质量差。通过拖动滚动条,可以查看到整个 contig 的拼接情况。 如果需要查看某一个 read 的峰图,只需选中这个 read 上的碱基点击鼠标中键,就会弹出峰图(双键鼠标可以通过同时点击左右键来实现中键功能)。如图 2-7:

contig 窗口和 reads 峰图

图 2-7 contig 窗口和 reads 峰图

对于比较大的 contig,手动检查的效率是很低的,所以 consed 提供了一系列统计以辅助 检查 contig 的拼接:

第一是提供了 contig 的平均单碱基错误率统计,以衡量 contig 的整体质量。这个信息显 示在 contig 窗口按键区"Err/10kb"的右边。如上图显示就是万分之 3.38 的错误率。

第二是提供了查找 contig 上组装有问题区域的功能。点击"navigate"按钮,下拉菜单中有很多查找选项,其中第一个选项 "Low Cons/High Qual Descrep/Single Stranded/Single Subclone/Unaligned High"选项,即查找全部有问题的组装区域。相比于这种 一网打尽的找法,分类寻 找往往更有针对性,所以最常用的是如下选项: "Low consensus quality"、"Region covered by only 1 subclone"和"High quality discrepancies/>5bp from unaligned region",即低质量、单覆盖和高质量错配。

以查找低质量区为例,依次点击"navigate"->"Low consensus quality",会弹出一 个窗口显示所有低于指定质量值(默认为 25)的区域,双击其中的任意一个结果,contig 窗口 就会显示这个位置附近的组装情况。点击"save"按键,弹出窗口显示的统计结果可以保存。如 图 2-8:

寻找 contig 的低质量区

图 2-8 寻找 contig 的低质量区

3.提取组成 contig 的所有 reads 的位置信息:

在 contig窗口上点击"Info"按钮,选择"Show Contig Information",就会弹出"Contig Information"窗口,显示所有 reads 在这个 contig 上的位置和方向。可以点击"Save"输出这些信息。如图 2-9

查看 contig 上 reads 的位置

图 2-9 查看 contig 上 reads 的位置

4.查看 contig 之间的关系和正反向 reads 的覆盖情况:

在主窗口上点击按钮"Assembly View"会弹出一个窗口显示 contig 之间的正反向 reads关系,并将关系足够多的正反向连成 scaffold。在 contig 的上方会出现两条起伏的线,较高 的一条是浅绿色,表示亚克隆的覆盖度曲线;较低的一条是深绿色,表示组装的 reads 覆盖度曲线。这两条曲线突然降低的位置往往是组装结果中连接较弱的位置,甚至是错拼。因此这两条曲线能够用来粗略的检验序列组装的可靠性。如图 2-10:

Assembly View

图 2-10 Assembly View

如果想仔细观察正反向的覆盖情况,可以点击"Assembly view"窗口的"What to Show", 在菜单中选择"Fwd/Rev Pairs",选中正反像选项中的"Show each consistent fwd/rev pair within contigs"和"Show legs on squares for consistent fwd/rev pairs" 并点击"Apply",就会在显示 contigs 之间的关系的同时也显示 contigs 内部的正反向关系, 能够比较方便的找到正反向覆盖异常的区域。

5.寻找组装结果中的重复区:

在"Assembly View"窗口点击"Sequence Matches",会弹出 cross_match 比对的参数选项窗口。点击"run crossmatch",程序会在所有的 contigs 之间进行比对,并把比对结 果绘制在"Assembly View"窗口里面的 contig 上,其中橙色线条代表正向比对的结果,黑色 代表反向比对。如图 2-11:

Assembly View 的比对功能

图 2-11 Assembly View 的比对功能

6.在 consed 中搜索序列:

打开"Search for String"窗口,从一个 contig 中选中一段序列(consed 设置为选中复制),用鼠标中键粘贴在"Query String"内(也可以键盘输入),然后点击"OK",程序就 会找出这一段序列在所有结果中出现的位置。如图 2-12:

搜索序列

图 2-12 搜索序列

7.连接 contigs:

对于有重复区域的两个 contigs,我们可以把鼠标的焦点定在两个 contig 重复区域的同一个碱基上,在两个 contig 窗口里分别点击"Compare Cont"弹出比对窗口。点击窗口中间的 "Align"比对。查验比对结果没有问题可以接受以后,点击比对窗口右下角的 "join Contigs",两个 contigs 就连起来了,如图 2-13 和 2-14。需要注意的是,如果两个 contigs是反向比对,则必须用按钮“Compl Cont”把其中一个 contig 变成互补序列,才能进行连接。

连接 contigs

图 2-13 连接 contigs

图 2-14 连接以后的 contig

8.拆分 contig

在 contig窗口里选中选一个位置按右键,选择"Tear contig at this consensus position",就会弹出一个窗口以供选择跨过这一碱基的每一个 reads 应该划分到上游还是下 游。选定之后点击"Do Tear",原来的 contig 就拆成了 2 个。如果 2-15 和 2-16

拆分contig

图 2-15 拆分 contig

图 2-16 拆分后的 contigs

9.把一个 read contig 中分离出来:

在 contig 窗口中选中需要分出来的 read,点鼠标右键,选择"Put read *** into its own contig",即可把这条 read 从中分离出来。如图 2-17 和 2-18:

图 2-17 从 contig 中分离 reads

图 2-18 分离出来的 read 单独成为一个 contig

以上是一些常用的基本功能,其他的扩展功能读者可以慢慢摸索。需要注意的是,以上的功 能都是在参数配备完整的情况下实现的。如果 consed 实现某一功能的调用程序路径不对,会弹 出类似于这样的错误窗口:

图 2-19 错误 1

图 2-20 错误 2

遇到这种情况的需要重新配置 consed 的参数调用列表,方法如图 2-21,在主界面上点击 "Options",选择"Edit Consed/Autofinish Parameters",把报错的调用程序路径修 改为当前系统内的有效路径即可。使用 consed 时多数配置问题可以通过这种方法解决。

调整 consed 参数

图 2-21 调整 consed 参数

输出

1.保存 ace 文件:

点击主窗口的“File”按钮,在菜单中选择"Save assembly"选项,可以用来保存修改后的 ace 文件。见图 2-22

图 2-22 保存 ace 文件

2.输出 contigs 序列:

点击主界面的“File”,选择"Write all contigs to fasta file"可以输出所有contigs。如果需要单独输出某一个 contig,可以在相应的 contig 窗口内点击"File",选 择 "Export consensus sequence" 或 者 "Export consensus sequence (with options)"来指定输出完整 contig 还是部分序列、输出起止位点、是否输出质量、输出格式 是 fasta 还是 phd 等等。如图 2-23:

图 2-23 输出 contig 序列

常见问题

1.运行 consed 时报下列错误:

no ~/.consedrc file so no user resources will be used--that's ok no ./.consedrc file so no project-specific resources--that's ok couldn't open readOrder.txt--that's ok

Error: Can't open display:

这种情况通常是使用的远程登陆工具不支持图形界面。使用 X-win32 登陆即可解决。

2.运行 consed 时报下列错误:

no ~/.consedrc file so no user resources will be used--that's ok no ./.consedrc file so no project-specific resources--that's ok couldn't open readOrder.txt--that's ok

Fatal: The parent directory must contain phd_dir and chromat_dir, but it doesn't. A typical directory structure is a directory named after the project, with subdirectories named edit_dir (containing the ace files), phd_dir (containg the phd files), and chromat_dir (containing the chromatogram files). Consed would then be run from within edit_dir.

Version 14.00 (040827)

这是由于上级目录没有“phd_dir”。

  • ***2ybzhao 1970-01-01 08:00
    #1

    谢谢推荐 :razz: ,在您方便的时候,希望也来与大家分享一些有意思的东西哦。当然,如果对PLoB有什么意见和建议也请告诉我们啦。