超几何分布检验(hypergeometric test)

1,超几何分布的定义

总共有N件产品,其中M件次品,现在从中抽取n件做检查,抽到k件次品的概率分布服从超几何分布。
P(k,N,M,n)=((Mk))((NMnk))(Nn)k=0,1,2,...MP(k, N, M, n) = \frac{\left(M \choose k \right)*\left(N-M \choose n-k \right)}{N \choose n},其中k = 0, 1, 2, ...M

2,超几何分布检验

给定一个超几何分布,算出比某个事件更极端的概率,可以称为超几何分布检验。
比如在两个圈的venn图中,想要计算overlap是否显著:
超几何分布检验(hypergeometric test)
假设总共的基因个数为20000个,图中左边圈总数3005可以看成是次品的总个数,现从中抽取805个产品,需要计算得到次品个数大于等于265的概率。

思考过程:overlap过高或者过低,从超几何分布来看,发生的概率都较小。现在的overlap是265,可能会是过高的那种情况,那么现在计算overlap是265以及大于265的概率之和,如果这个概率很小,那就说明发生265这个事件不是随机的,进而就推出来了overlap为265是显著性高的一个事件。

3,fisher精确检验(Fisher exact-test)的原理基于超几何分布,实际就是超几何分布检验。

4,R包中实现

R中自带超几何分布的检验(stats包)

4.1 方法1

phyper(q, m, n, k, lower.tail=F)

4.2 方法2

1 - phyper(q-1, m, n, k)

Note:两种方法的参数如下:

q = the number of white balls drawn from the urn (without replacement)
q对应到抽样问题,为k

m = the number of white balls in the urn
m对应到抽样问题,为M

n = the number of black balls in the urn
n对应到抽样问题,为N-M

k = the number of balls drawn from the urn (sample size)
k对应到抽样问题,为n