GATK使用方法详解(实例:对SNP结果进行校正)
第一步:
java -jar GenomeAnalysisTK.jar
-R hg19.fa
--maxGaussians 4
-numBad 10000 (这个参数在最新的GATK版本里面已经没有了,用的时候注意版本,2.8.1里面不用自己设置
这个参数)
-T VariantRecalibrator
-mode SNP
-input ChrALL.100.sam.recal.10.vcf
-resource:hapmap,known=false,training=true,truth=true,prior=15.0 hapmap_3.3.hg19.vcf
-resource:omni,known=false,training=true,truth=false,prior=12.0 1000G_omni2.5.hg19.vcf
-resource:1000G,known=false,training=true,truth=false,prior=10.0 1000G_phase1.snps.high_confidence.hg19.vcf
-resource:dbsnp,known=true,training=false,truth=false,prior=2.0 dbsnp_137.hg19.vcf
-an QD
-an HaplotypeScore
-an MQRankSum
-an ReadPosRankSum
-an FS
-an MQ
-an InbreedingCoeff
-recalFile hg19.vcf.snp_11_Q10.recal
-tranchesFile hg19.vcf.snp_11_Q10.tranches
-rscriptFile hg19.vcf.snp_11.plot_Q10.R
-nt 4
--TStranche 90.0
--TStranche 93.0
--TStranche 95.0
--TStranche 97.0
--TStranche 99.0
--TStranche 99.9
先run一下上面的代码,这一步可以尽可能多的设置注释类型和tranche的值,然后根据这次跑出来的结果选择出最好的注释类型和tranche值之后,再次运行VariantRecalibrator。
第二步:
java -jar GenomeAnalysisTK.jar
-R hg19.fa
--maxGaussians 4
-numBad 10000
-T VariantRecalibrator
-mode SNP
-input ChrALL.100.sam.recal.10.vcf
-resource:hapmap,known=false,training=true,truth=true,prior=15.0 hapmap_3.3.hg19.vcf
-resource:omni,known=false,training=true,truth=false,prior=12.0 1000G_omni2.5.hg19.vcf
-resource:1000G,known=false,training=true,truth=false,prior=10.0 1000G_phase1.snps.high_confidence.hg19.vcf
-resource:dbsnp,known=true,training=false,truth=false,prior=2.0 dbsnp_137.hg19.vcf
-an HaplotypeScore
-an MQRankSum
--TStranche 97.0
-recalFile hg19.vcf.snp_11_Q10.recal
-tranchesFile hg19.vcf.snp_11_Q10.tranches
-rscriptFile hg19.vcf.snp_11.plot_Q10.R
-nt 4
这一步run出来的结果可以直接用于下一步的ApplyRecalibration。
第三步
java -jar GenomeAnalysisTK.jar
-R hg19.fa
-T ApplyRecalibration
-mode SNP
-input hg19.recal_10_Q10.vcf
-tranchesFile hg19.vcf.snp_12_Q10-2.tranches
-recalFile hg19.vcf.snp_12_Q10-2.recal
-o hg19.snp.filter.t97.Q10_13.snp.vcf
--ts_filter_level 97
最终生成的hg19.snp.filter.t97.Q10_13.snp.vcf这个文件中的SNP位点已经全部经过校正过滤,INDEL位点还是原始数据,需要对INDEL再进行一次校正过滤。
原文来自:http://blog.sina.com.cn/s/blog_12d5e3d3c0101qu6t.html
相关推荐:
- NCBI在线BLAST使用方法与结果详解 2941
- 神经网络术语:Epoch、Batch Size和迭代 527
- Consed的安装与使用教程 465
- 陈连福的NGS生物信息学培训教材V2.1 277
- WGCNA分析使用教程 272
-
***来自外部的引用: 1GATK使用方法详解(变异检测) 1970-01-01 08:00#1
最新创建圈子
-
原料药研发及国内外注册申报
2019-01-25 10:41圈主:caolianhui 帖子:33 -
制药工程交流
2019-01-25 10:40圈主:polysciences 帖子:30 -
健康管理
2019-01-25 10:40圈主:neuromics 帖子:20 -
发酵技术
2019-01-25 10:39圈主:fitzgerald 帖子:17 -
医学肿瘤学临床试验
2019-01-25 10:39圈主:bma 帖子:58