直系同源预测方法
直系同源的基因通常具有相似的生物学功能,所以我们在进行一个未知序列的功能的鉴定的时候,其实质在找功能已知的同源基因。功能基因组的研究过程中,对于两个或者多个物种的同源基因进行鉴定,是功能基因鉴定、比较基因组、功能基因分类、pathway预测等待的基础。
基因相似性、一致性与同源性
- 同源性是序列同源或者不同源的一种论断,而一致性和相似性是一种描述序列相关性的量;
- 如果两条序列有一个共同的进化祖先,那么他们就是同源的,不存在同源性的程度问题,要么同源,要么不同源;
- 同源蛋白总是在三维结构上有显著的相似性;
- 两条蛋白即使没有统计上显著的一致性,其也可能是同源的;
- 两条蛋白质是否同源的最强的证据来自于结构研究和进化分析;
- 一致性(identity)表示了两个序列相同的程度;
- 两条序列的相似性百分比(percent similarity)是相等于相似匹配之和;
- 一般的一致性比相似性更有用些,因为相似性的衡量依赖于如何定义两个氨基酸残基是如何相似的;
- 双序列的比对是排列两条序列以达到最大程度相同的过程,其目的是衡量两个分子的相似性和同源的可能性;
确定两个蛋白是否同源的问题检查单
- 期望值是否显著?
- 两个蛋白质是否有近似的大小?
- 是否具有共同的模体或信号序列?
- 多序列比对的融合性?
- 是否具有相似的分子特性?
- 是否具有相似的三维结构?
- 双向blast比对结构是否一致?
- 是否具有相似的生物学功能?
直系同源与旁系同源
- 同源的蛋白质可以分为直系同源与旁系同源,当同源是基因复制的结果,两份拷贝在一个物种的历史上是平行演化的,这样的基因被称为旁系同源基因。当同源是物种形成的结果,基因的历史反映了物种的历史,被称为直系同源;
- 直系同源是不同物种内的同源序列,他们是来自于物种形成时的共同祖先基因;
- 通常认为直系同源的序列具有相似的生物学功能;
直系同源与旁系同源的区分
判断直系同源还是旁系同源主要依据最大似然法构建的基因系统发育树。 系统发育树可以显示出基因家族演化的历史,比如基因从一个共同的祖先中分化的。基因树同物种树进行比对,是否有内部的节点,将是区别复制事件与物种分化事件的依据。如果只是简单的只有唯一的直系同源基因,这样的验证非常容易区别。但是大多数情况都是一对多或者多对多的关系。比如斑马鱼与哺乳动物的同源基因比较中这种情况非常多,在果蝇与哺乳动物或者蠕虫与哺乳动物的同源基因预测中,这中情况更为明显。
鉴定直系同源基因的方法,分为7步:
- 从Ensemble下载要比对物种的所有基因的蛋白质序列,如果一个基因有多个转录本,只取最长的;
- 使用WUBlastp+SmithWaterman,每个基因同所有的基因进行比对,也就是将所有物种的基因当做一个库,用这个库和其本身进行比对;
- 基于BRH与BSR的值,为这些基因建立关系图;
- 将有关联的分为一组,相当于一个基因家族;
- 对于每一组,将蛋白质序列用MUSCLE进行多重比对;
- 对比好的每一组,使用多重比对结果中蛋白质对应的CDS序列,使用NJTREE构建系统发育树;
- 针对每个基因树,推断每两个基因是直系同源还是旁系同源:
Orthologues : 两个基因之间的根节点是一个物种形成事件,直系同源的几种情况
- ortholog_one2one 一对一
- ortholog_one2many 一对多
- ortholog_many2many 多对多
- apparent_ortholog_one2one (is a special case, see below) 明显的一对一
Paralogues : 祖先节点是一个复制事件,旁系同源的集中情况:
- within_species_paralog 物种内的
- between_species_paralog 物种间的
简单的基因同源性的门槛(基于Blastp比对的)
- identity >30%;
- e-value <1e-10;
- score>200
- overlap >60%
同源基因数据库
- HomoloGene - http://www.ncbi.nlm.nih.gov/homologene
- inparanoid7 - http://inparanoid.sbc.su.se/cgi-bin/index.cgi
- OrthoCluster - http://genome.sfu.ca/orthoclusterdb/
- OrthoMCL - http://www.orthomcl.org/cgi-bin/OrthoMclWeb.cgi (谢谢 boya888 推荐 )
原文来自:博耘生物(http://boyun.sh.cn/bio/?p=1849)
相关推荐:
- NCBI在线BLAST使用方法与结果详解 2941
- 神经网络术语:Epoch、Batch Size和迭代 527
- Consed的安装与使用教程 465
- 陈连福的NGS生物信息学培训教材V2.1 277
- WGCNA分析使用教程 272
最新创建圈子
-
原料药研发及国内外注册申报
2019-01-25 10:41圈主:caolianhui 帖子:33 -
制药工程交流
2019-01-25 10:40圈主:polysciences 帖子:30 -
健康管理
2019-01-25 10:40圈主:neuromics 帖子:20 -
发酵技术
2019-01-25 10:39圈主:fitzgerald 帖子:17 -
医学肿瘤学临床试验
2019-01-25 10:39圈主:bma 帖子:58
目前我做过同源基因鉴定的相关工作,但是使用标准与这个不一样。这个标准与两个物种之间的进化亲缘关系的距离有关。
你好,这位朋友,真的很感谢你。
您好,确实很抱歉,目前我主要是做原核生物这一块。目前我采用的标准是,如果用核酸序列进行比对判断依据是identity>=70%,coverage>=70%,如果是用蛋白序列的话identity>=50%,coverage>=50%,有很多做细菌基因组相关工作用的就是这个标准,有很多文献可以引用支持。至于您所讲的这三个,我目前还没做过真核基因组的数据,所以不太清楚一般做真核用的标准,非常抱歉,您可以搜一下相关的文献,这样最后写论文的时候也是有依据的。
举个例子来说明coverage:例如蛋白A长度100,B的长度120,在比对的时候A的6-90与B的6-95比对上了,那么A的coverage是(90-6+1)/100=85%,B的coverage是(95-6+1)/120=75%。
新手,学习之。。。