如何向NCBI提交序列(在线提交法)

楼主  收藏   举报   帖子创建时间:  2018-03-01 00:00 回复:0 关注量:187

这里将要介绍的是如何向NCBI数据库直接提交你的DNA或RNA序列,结合本人的实际设计操作经验来给大家一个简单便捷的方法。因为我本人也是最近摸索出来的经验总结,希望对打算提交序列的同学有所指导帮助。

关键词:NCBI DNA 提交 Submission

1.整理序列信息:包括病原采集地、病原的寄主、寄主症状、采集人等基本信息;还有序列分析结果,包括序列全长大小,开放阅读框(ORF)的长度、位置及特定ORF序列翻译的氨基酸序列等基因水平的信息,这对于接下来的快速准确提交序列及提交成功后为全世界其他作者准确全面分享此类信息很重要;

2.登陆BackIt站点,注意到页面右边的“Sign in to use BankIt”标签,点击登录进入。如果没有账号就注册一个(注意,此账号与NCBI账号不通用)。

2604769434497480281

附 注册账号步骤,需要填写的项目为:

Title:你的职位或头衔

First name:名

last name:姓

login:登陆名

Affiliation:所属机构地址,一般填写自己学校地址

E-mail Address:通信电邮,填完后会发随机密码到此电邮地址,使用随机密码进行登陆,当然登陆后可对密码进行重置;

3078491820301510685

3.登陆BankIt,看到如下图所示界面,此时NCBI会自动分配一个SubmissionID,但不是最终的提交序列ID:

接下来共有九个步骤(好事多磨):

3.1 Contact Information

填写个人姓名、机构、电邮等资料集联系方式,如果错误该页会有ERROR提示直到正确填写,填写完毕点击CONTINUE;

565764703205488295

3.2 Reference

填写参考作者信息(Reference author)及序列相关信息,比如该序列是否对应有文章,如单纯提交序列则只需选择Unpublished即可(Reference title项可以填入“Direct Submission”),有的话就填写已发表文章的信息(卷、期等),接下来会问你该序列的提交者是否是序列的发现者等信息,填写完毕点击CONTINUE;

2742129223132281142

※提示:新版的BankIt中,接下来会有“Sequencing Technology”一项,呈现有454、Illumina、SOLiD及Other等测序方法选择,目前为“Sanger dideoxy sequencing”即一代测序方法测序,并且所提交的序列均为“assembled sequences”,目前的“assembly program”为“Lasergene,version 7.0”。

3.3 Nucleotide

包括三个小项:Submission Release Date(期望NCBI什么时候公布你的序列)、16S rRNA submissions(该序列是否为16S rRNA)、Sequence(s) and Definition Line(s)(会提示问你该序列是否为全长genomic DNA、线状或环状等、序列长度,需要复制序列或提交FASTA格式文件),如若序列长度与复制序列或FASTA文件长度不同则会有提示,需要重新提交序列,依次选择即可。一般选择“Immediately after Processing”,“非16S rRNA”,“genomic DNA”,“circular”,“complete”等信息,然后将全序列粘贴到下方的空格中,别忘了在上方写上总核苷酸数。完后审查看有没有错误,继续CONTINUE;

28147497688138539

3.4 Organism

填写Organism(病原物)的名字,即序列公开显示时候的标题(如MYVYNV分离物序列“Malvastrum yellow vein Yunnan virus isolate SC226-5, complete genome"),点击CONTINUE后会出现自动检索项目,核对后(有可能会进行选择)继续CONTINUE;

1542482872391461639

3.5 Submission Category

提交范畴,是否直接提交或通过第三方Annotation提交(不是太清楚什么意思,可能指的是从EMBL和DDBJ中导入的数据吧),一般为直接提交,如下图示选择Original,继续CONTINUE;

2731151699040564369

3.6 Source modifier

选择该病原物的种类,比如质粒、线粒体等;

Source modifier下拉菜单及后面的Value设置:进一步选择该病原物获取信息,比如Country、Host、Clone、Collection date、Strain/Isolate等,至少三项(Organelle/Location为细胞器/位置,该项可以不填写),否则该项不通过,尽量信息全面真实,需要继续添加则点击Add,填写完毕查看下方已填写表格进行信息核对,然后CONTINUE;

2795890943684011370

3.7 Primers

PCR引物项目,可选项目,不想填写可CONTINUE;

2392818777034359788

3.8 Features(※)

该步骤重要!将用到之前准备的内容,比如序列内ORFs等信息的填写,并根据之前的选项来填写该步骤,比如需要将DNA翻译为氨基酸序列并进行复制粘贴等,该步操作只需将之前准备信息录入即可,比较耗时;

2778439495127952726

点击下方“ADD”键,页面将切换为↓

2864852312978127328

       在这里我们需要录入更多与该序列有关的信息,最主要的就是录入之前已经整理好的序列里面的开放阅读框ORF)信息:Genetic Code设置为”Standard“,5'和3'都勾选上,Protein Name/Protein Description项都填写,将特定区域(ORF)的核苷酸序列翻译为氨基酸序列后(除去末端的终止子)复制到下方的”Amino Acid Sequence“框中,依次录入即可。在这里越详细越好,具体参照实际操作;

3.9 Review and Correct

对已填写信息进行复核及提交,并被告知在2个工作日之内会收到NCBI电邮,需要进一步对序列进行审查核对;

665406844961061878

4.至此,基本序列提交已经完工,剩下的事情就是等待审核,大概两个工作日后会收到来自NCBI工作人员的电邮,如有问题会通知你进一步修改信息直到完全无误,包括以后的接受序列号,即你的序列会出现在NCBI里面世界上唯一的一个界面里。

至此向NCBI数据库提交序列工作结束。此文来自:http://yyqsniper.blog.163.com/blog/static/4566781201110923040390/,如有疑问欢迎来http://www.BioAsk.net讨论交流。