利用MISA鉴定简单重复序列(SSR)
在基因组中存在着大量的重复序列,根据其重复的程度可分为简单重复序列、中度重复序列和高度重复序列。简单重复序列(Simple Sequence Repeat,SSR)在真核生物基因组中广泛存在,一般是以1-6bp组成较低程度的重复序列,主要以2-3个核苷酸为重复单位如(GA)n、(AC)n和(GAA)n等。从进化角度看物种间重复序列的差异是自然选择的结果。因此鉴定SSR在基因组分析中有重要意义。
今天给大家推荐一款鉴定简单重复序列的软件MISA(MIcroSAtellite identification tool)。MISA是一个用perl语言写的一个从fasta序列中鉴定SSR的脚本。
该软件下载地址:http://pgrc.ipk-gatersleben.de/misa/
下面是软件的附带的使用说明。
12345678910111213141516171819 DESCRIPTION: Tool for the identification and localization of(I)perfect microsatellites as well as(II) compound microsatellites (two individual microsatellites,disrupted by a certain number of bases)SYNTAX: misa.plSingle file in FASTA format containing the sequence(s).In order to specify the search criteria, an additional file containingthe microsatellite search parameters is required named "misa.ini", whichhas the following structure:(a) Following a text string beginning with 'def', pairs of numbers areexpected, whereas the first number defines the unit size and thesecond number the lower threshold of repeats for that specific unit.(b) Following a text string beginning with 'int' a single number definesthe maximal number of bases between two adjacent microsatellites inorder to specify the compound microsatellite type.Example:definition(unit_size,min_repeats):1-10 2-6 3-5 4-5 5-5 6-5interruptions(max_difference_for_2_SSRs): 100EXAMPLE: misa.pl seqs.fasta
运行MISA时还需要另外一个文件,misa.ini。该文件记录鉴定的SSR的参数。默认情况下:
第一行:definition(unit_size,min_repeats) 是SSR pattern
第二行:interruptions(max_difference_for_2_SSRs)是两个SSR之间的间隔。
筛选标准为:单核苷酸重复的次数在16次或 16次以上 ,二核苷酸重复的次数在 6次或 6次以上 ,三至六核苷酸重复的次数在 5次或 5次以上等。同时 ,也筛选中间被少数碱基 (间隔小于100或等于100)打断的 ( interrupted)不完全重复的SSR)
运行前将misa.ini与misa.pl 放在一起,输入的序列存在fasta文件里面,然后运行下面的命令:
1 | perl misa.pl genome.fasta |
相关推荐:
-
***来自外部的引用: 1使用Misa结合Primer3来批 1970-01-01 08:00#1
最新创建圈子
-
原料药研发及国内外注册申报
2019-01-25 10:41圈主:caolianhui 帖子:33 -
制药工程交流
2019-01-25 10:40圈主:polysciences 帖子:30 -
健康管理
2019-01-25 10:40圈主:neuromics 帖子:20 -
发酵技术
2019-01-25 10:39圈主:fitzgerald 帖子:17 -
医学肿瘤学临床试验
2019-01-25 10:39圈主:bma 帖子:58