6种方式下载ENCODE计划的所有数据

楼主  收藏   举报   帖子创建时间:  2018-08-08 00:00 回复:0 关注量:103

DNA元件百科全书(Encyclopedia of DNA Elements, ENCODE)ENCODE计划的重要性我就不多说了,如果大家还不是很了解,可以直接跳到本文末尾去下载一下ENCODE教程,好好学习。该计划采用以下几种高通量测序技术来刻画了超过100种不同的细胞系或者组织内的全基因组范围内的基因调控元件信息。本来只是针对人类的,后来对mouse以及fly等模式生物也开始测这些数据并进行分析了, 叫做 modENCODE

  • chromatin structure (5C)
  • open chromatin (DNase-seq and FAIRE-seq)
  • histone modifications and DNA-binding of over 100 transcription factors (ChIP-seq)
  • RNA transcription (RNAseq and CAGE)

目前所有数据均全部公开(http://genome.ucsc.edu/ENCODE/ ),ENCODE results from 2007 and later are available from the ENCODE Project Portalencodeproject.org. 并以30篇论文在Nature、Science、Cell、JBC、Genome Biol、Genome Research同时发表(http://www.nature.com/encode )。
所有数据从raw data形式的原始测序数据到比对后的信号文件以及分析好的有意的peaks文件都可以下载。

我这里根据自己的学习情况,简单介绍一些ENCODE计划数据下载方式,包括ENCODE官网下载,UCSC下载,ENSEMBL下载,broad研究所数据,IHEC存放的数据,还有GEO下载这6种形式。

首先在UCSC里面:

网址是:http://hgdownload.cse.ucsc.edu/goldenPath/hg19/encodeDCC/  因为是直接浏览文件,根据文件夹分类及文件名就可以任意方式下载自己感兴趣的数据啦,所以最对我胃口。

大家可能会比较习惯用UCSC提供的Genome Browser工具来可视化CHIP-seq的结果,而且Genome Browser里面非常多的选项可以控制各种在线资料是否跟你的数据一起显示来做对比,所以它必然有ftp服务器存放这些数据,其中比较出名的就是ENCODE计划的相关数据啦!如下图所示:

1

我比较关注ENCODE计划的组蛋白数据,点击进入!

一般都是每个细胞系对应的各个组蛋白标记物的数据,从测序序列到比对bam文件,以及call到的peaks都可以下载!!!

然后是ENCODE计划的官网下载:
在ENCODE计划的官网上面还有各种数据处理的流程介绍:https://www.encodeproject.org/pipelines/

  • RNA-seq pipelines
  • RAMPAGE pipeline
  • Chromatin pipelines(Histone ChIP-seq Pipeline/Transcription Factor ChIP-seq Pipeline)
  • Methylation pipeline(WGBS Pipeline Overview)

官网的数据下载,做得像是一个购物网站,大家可以根据自己的需求把数据添加到购物篮,然后统一下载。
This document describes what data are available at the ENCODE Portal, ways to get started searching and downloading data, and an overview to how the metadata describing the assays and reagents are organized. ENCODE data can be visualized and accessed from other resources, including the UCSC Genome Browser and ENSEMBL.

进入 https://www.encodeproject.org/matrix/?type=Experiment 可以看到里面列出了173种细胞系,148种组织,还有一堆癌症样本的,包括CHIP-seq,DNase-seq等在内的十几种高通量测序数据。

2

接下来是GEO数据库里面:

里面直接把所有跟ENCODE相关的GSE study列出来了:http://www.ncbi.nlm.nih.gov/geo/info/ENCODE.html
GEO数据就没什么好说的了,直接进入study页面,然后下载数据即可,这也是我比较喜欢的数据下载方式,因为GEO里面对一个实验的描述很详细。

然后是broad 研究所托管的ENCODE计划的数据:

大名鼎鼎的broad研究所貌似是生物信息最全面的资源站点了,它不仅host了ENCODE计划的所有数据,还有它分析ENCODE计划的数据时使用的软件,工具。

http://www.broadinstitute.org/~anshul/projects/encode

原始数据在:http://www.broadinstitute.org/~anshul/projects/encode/rawdata/
3

接着是 iHEC存放的数据:

http://epigenomesportal.ca/ihec/download.html

我还是第一次看到这个数据接口,也是以文件夹文件的形式直接浏览,根据自己的需求下载即可:
除了ENCODE计划的数据,还有Blueprint计划和roadmap计划的数据都可以下载。

[DIR]CEEHRC2014-09-18Click here for policies
[DIR]Blueprint2014-08-11Click here for policies
[DIR]ENCODE2011-01Click here for policies
[DIR]NIH Roadmap2014-05-29Click here for policies
[DIR]DEEP2014-08-15Click here for policies
[DIR]CREST JST2014-09-12Click here for policies
[DIR]KNIH2015-07-15Click here for policies

最后就是ENSEMBL数据库里面的:

我没有找到直接下载地址;http://asia.ensembl.org/info/website/tutorials/encode.html

The full ENCODE datasets that were used in the Ensembl regulatory build can also be viewed in the Ensembl GrCh37 archive, by attaching a track hub to Region in Detail – the link below will do this automatically:

Link to add ENCODE integrative analysis hub

This creates a menu in the Control Panel on Region in Detail, from which you can add individual tracks or groups of tracks using matrix selectors. Cell type and experimental factor are the two principal axes; other dimensions can be selected by clicking on a box to open an additional submenu (see below).

如果你对ENCODE计划不是很了解,可以先看看一些教程:

NIH提供的ENCODE计划相关教程: https://www.genome.gov/27553900/encode-tutorials/

https://www.genome.gov/27562350/encode-workshop-april-2015-keystone-symposia/

https://www.genome.gov/27561253/encode-workshop-tutorial-october-2014-ashg/

https://www.genome.gov/27553901/encode-tutorial-may-2013-biology-of-genomes-cshl/

https://www.genome.gov/27563006/encoderoadmap-epigenomics-tutorial-october-2015-ashg/

https://www.genome.gov/27555330/encoderoadmap-epigenomics-tutorial-october-2013-ashg/

https://www.genome.gov/27551933/encoderoadmap-epigenomics-tutorial-nov-2012-ashg/

http://useast.ensembl.org/info/website/tutorials/encode.html

https://www.encodeproject.org/tutorials/

https://www.encodeproject.org/tutorials/encode-meeting-2016/

https://www.encodeproject.org/tutorials/encode-users-meeting-2015/

DNA元件百科全书(Encyclopedia of DNA Elements, ENCODE)项目旨在描述人类基因组中所编码的全部功能性序列元件。ENCODE计划于2003年9月正式启动,吸引了来自美国、英国、西班牙、日本和新加坡五国32个研究机构的440多名研究人员的参与,经过了9年的努力,研究了147个组织类型,进行了1478次实验,获得并分析了超过15万亿字节的原始数据,确定了400万个基因开关,明确了哪些DNA片段能打开或关闭特定的基因,以及不同类型细胞之间的“开关”存在的差异。证明所谓“垃圾DNA”都是十分有用的基因成分,担任着基因调控重任。证明人体内没有一个DNA片段是无用的。

原文来自:http://www.bio-info-trainee.com/1825.html