对应不同版本基因名称
在做生物信息分析的时候经常会遇到一种尴尬的问题就是不同来源或者版本的注释文件里面,基因名称不一致。譬如P53,其实它的标准名称为TP53。CXCR4的曾用名有一堆,CD184, D2S201E, FB22, HM89, HSY3RR, LAP-3, LAP3, LCR1, LESTR, NPY3R, NPYR, NPYRL, NPYY3R, WHIM, WHIMS。那有没有办法可以批量查找和对应各种基因的曾用名或者旧版本的名称呢?答案是有的。
下面有几种方法或者来源的数据可以解决这个问题。
方法一:使用homer数据
安装homer之后在它的安装目录下面会有data/accession这个目录,里面human2gene.tsv和human.description就是人的各种基因的名称对应表。mouse2gene.tsv和mouse.description是小鼠的各种历史版本的基因对应表。
方法二:NCBI数据
从ftp://ftp.ncbi.nih.gov/gene/DATA/GENE_INFO/ 这里可以下载个物种的基因信息。
譬如:
人的所有基因信息:
ftp://ftp.ncbi.nih.gov/gene/DATA/GENE_INFO/Mammalia/Homo_sapiens.gene_info.gz
小鼠的所有基因信息:
ftp://ftp.ncbi.nih.gov/gene/DATA/GENE_INFO/Mammalia/Mus_musculus.gene_info.gz
方法三:各种标准数据库
例如:人可以使用HGNC这个数据库,他的全称HUGO Gene Nomenclature Committee。访问这里https://www.genenames.org/download/custom/,来选择自己关心的信息。或者来这个地方https://www.genenames.org/download/statistics-and-files/下载所有你需要的信息。
小鼠的相关信息可以来MGI下载,具体可以自己探索一下:http://www.informatics.jax.org/mgihome/nomen/
相关推荐:
- NCBI在线BLAST使用方法与结果详解 2938
- 神经网络术语:Epoch、Batch Size和迭代 527
- Consed的安装与使用教程 465
- 陈连福的NGS生物信息学培训教材V2.1 277
- WGCNA分析使用教程 271
最新创建圈子
-
原料药研发及国内外注册申报
2019-01-25 10:41圈主:caolianhui 帖子:33 -
制药工程交流
2019-01-25 10:40圈主:polysciences 帖子:30 -
健康管理
2019-01-25 10:40圈主:neuromics 帖子:20 -
发酵技术
2019-01-25 10:39圈主:fitzgerald 帖子:17 -
医学肿瘤学临床试验
2019-01-25 10:39圈主:bma 帖子:58