RNAseq中Reads的可视化及注释

楼主  收藏   举报   帖子创建时间:  2018-11-26 00:00 回复:0 关注量:174

对于复杂的组学数据,能尽可能方便地直接观察数据对于数据的分析和解释都非常重要,对新一代测序数据的可视化和交互展示是一个非常重要但容易被人忽视的问题.不深入考查数据的细节,而是满足于对数据的统计分析,是高通量数据应用中经常容易陷入的误区,方便有效地可视化工具能够帮助避免这样的误区.下表列出了部分适用于RNA-seq数据的全基因组浏览器,其中比较具有代表性的有UCSC Genome Browser、Cis Genome Browser和IGV(Integrative Genomics Viewer)等.这些浏览器具有如下特点:(1)能在不同尺度下显现单个或多个读段在基因组上的位置,包括来源于剪接接合区的读段;(2)能在不同尺度下显示不同区域的读段丰度,以反映不同区域的转录水平或测序效率;(3)能显示基因及其剪接异构体的注释信息;(4)能显示其他注释信息,例如物种间基因组序列保守性、序列GC含量等;(5)能直接或间接支持SAM/BAM读段定位数据存储格式.UCSC Genome Browser[55]属于基于网络模式的全基因组浏览器,所有数据都需要上载到远程服务器,经过处理后将图形返回客户端显示.图3中的例子就是从UCSC Genome Browser的显示截取的.Cis Genome Browser是典型的本地版基因组浏览器,所有读段数据、注释信息都存于本地文件,因此不需要网络连接,方便内部考查数据用. IGV(http://www.broadinstitute.org/igv)可以说是以上两种模式的融合,既可以从远程服务器端下载各种注释信息,又可以从本地加载注释信息.

除对读段的可视化外,用描述统计学方法对实验数据进行分类别统计也十分重要.例如,统计读段在各 个染色体上的分布情况和在注释的外显子、内含子、剪接接合区、基因间区的分布情况等. 目前,已经有一 些用于测序数据注释的生物信息学软件,比如 SAMtools、BEDtools]等,但由于测序技术发展迅速,用户需求因人而异,用户经常还需要根据需求编写一定的程序或脚本完成或完善注释分析的任务.  对于熟悉图形用户界面的研究人员,还可以利用 UCSC Table Browse和 Galaxy来配合完成注释分析.由于 UCSC Table Browser 集成了大量基因组尺度上的注释信息,而 Galaxy 又为用户提供了书写简单、接口明晰和直观的数据处理流程,这种方法十分方便有效,也为很多学者在展示研究成果时所采用.