Aspera从NCBI下载数据

楼主  收藏   举报   帖子创建时间:  2017-07-12 00:00 回复:0 关注量:322

如果要从NCBI下载大数据,单纯用FTP下载工具根本不够用了,还在NCBI提供了一款下载神器Aspera,试着用了一下,效果非常好,我6M的宽带速度可以达到5M/s,现简要介绍一下使用方法和遇到的问题。
1、下载
下载地址为:http://downloads.asperasoft.com/en/downloads/8?list
先点击操作系统的图标,在下拉框中就出现了相应的操作系统,再点下拉框右边那个小三角形,选择要下载的版本,然后点左边的”Download”图标就可以下载了。这个设计的真心有问题,反正我点了操作系统后,怎么也没找到下载的图标,后面还是不经意间点了那个下拉框后才出现。
2、安装
Windowns下直接双击下载的文件,linux下运行“ sh aspera-connect-xx-linux-64.sh ”,安装完成后在当前目录会找不到安装文件,其实是安装在当前用户的根目录下了,linux安装文件为隐藏文件“/home/用户/.aspera/”。windows中会出现在开始菜单里,具体的配置可以参考“ http://boyun.sh.cn/bio/?p=1933 ”的介绍。
3、使用
如果是批量下载,将要下载的文件链接存入一个文件,例如我要下载所有植物参考蛋白数据,先在NCBI FTP中找到所在目录,将要下载的文件路径存入文件plant_protein_seq_file_list.txt,格式如下/refseq/release/plant/plant.1.protein.faa.gz,每个文件一行,然后运行

/home/用户/.aspera/connect/bin/ascp -k 1 -QT -l 100M  -i /home/用户/.aspera/connect/etc/asperaweb_id_dsa.openssh --mode recv --host ftp-private.ncbi.nlm.nih.gov --user anonftp   --file-list plant_protein_seq_file_list.txt   ./

具体各参数的意思可以运行/home/用户/.aspera/connect/bin/ascp –help查看软件自带的说明。
备注:
(1)将“用户”换成当前使用的用户名。
(2)如果使用asperaweb_id_dsa.putty会出现要输入密码的情况,建议换成asperaweb_id_dsa.openssh,反正我找了半天都没有找到密码。
(3)“./”表示的是下载的输出目录为当前目录,也可以换成其它的目录。
如果是单独下载一个文件,运行

/home/用户/.aspera/connect/bin/ascp -k 1 -QT -l 100M -i /home/用户/.aspera/connect/etc/asperaweb_id_dsa.openssh -T anonftp@ftp-private.ncbi.nlm.nih.gov:/refseq/release/plant/plant.1.protein.faa.gz ./