超几何分布
简单点说,超几何分布就是有限样本的无放回抽样。不同于有放回抽样的二项分布(每次贝努里试验成功概率是一样的),每次的概率不相等。
随机变量X的超几何概率分布:
f(k,N,M,n) = C(k,M)*C(n-k,N-M)/C(n,N)
N = size of population
M = # of items in population with property "E"
N-M = # of items in population without property "E"
n = number of items sampled
k = number of items in sample with property "E"
这个公式可以理解为有C(n,N)种可能的样本,有C(k,M)种方法得到k个属于M的抽样、有C(n-k,N-M)种方法得到n-k个不属于M的抽样。
X服从参数n,N,M的超几何分布记为 X~H(n,N,M).
参考:http://en.wikipedia.org/wiki/Hypergeometric_distribution
对于基因进行GO注释,看基因集在某个GO子类中是否富集,富集的概率服从超几何分布。
N为GO注释的总基因数。
M为属于某个GO子类的基因数。
n为进行GO富集分析的基因集的数目。
k为n中属于M的数目。
基因集n是否在M类中富集的概率
1 1-phyper(k-1,M,N-M,n)##R代码
或者是
1 phyper(k-1,M,N-M,n, lower.tail=FALSE)
##在已知总体分布下,抽样n个中出现M类的个数是k以及k以上个数的概率。
12 lower.tail: logical; if TRUE (default), probabilities are P[X <= x],otherwise, P[X > x].
原文来自:http://ygc.name/2008/08/20/hypergeometric-distribution/
相关推荐:
- NCBI在线BLAST使用方法与结果详解 2938
- 神经网络术语:Epoch、Batch Size和迭代 527
- Consed的安装与使用教程 465
- 陈连福的NGS生物信息学培训教材V2.1 277
- WGCNA分析使用教程 272
最新创建圈子
-
原料药研发及国内外注册申报
2019-01-25 10:41圈主:caolianhui 帖子:33 -
制药工程交流
2019-01-25 10:40圈主:polysciences 帖子:30 -
健康管理
2019-01-25 10:40圈主:neuromics 帖子:20 -
发酵技术
2019-01-25 10:39圈主:fitzgerald 帖子:17 -
医学肿瘤学临床试验
2019-01-25 10:39圈主:bma 帖子:58