UA MATH566 统计理论7: Multiple Test

Multiple test就是同时做多个假设检验,回归和试验设计都有涉及到,那两个系列用的是Bonferroni方法和WHS方法。这里也介绍一下Bonferroni方法,另外再介绍一个Fisher方法。

Bonferroni调整

假设要同时做mm个假设检验,第ii个的p值为pi,i=1,,mp_i,i=1,\cdots,m,第ii个检验出现type I error的事件为AiA_i。定义Family-wise error rate (FWER)表示至少有一个检验出现type I error的概率,αB\alpha_B表示单个检验的显著性水平。假设α\alpha为这mm个联合检验的显著性水平,根据Bonferroni不等式
α=P(i=1mAi)i=1mP(Ai)=mαB\alpha = P(\bigcup_{i=1}^m A_i) \le \sum_{i=1}^m P(A_i) = m\alpha_B
因此拒绝第ii个检验的原假设的条件可以写为
piαmαBp_i \le \frac{\alpha}{m} \le \alpha_B
这说明要同时做mm个假设检验的话,如果要求的显著性水平为α\alpha,那么对单个检验做判断时显著性水平应该用α/m\alpha/m

注意到Bonferroni不等式在所有的AiA_i都独立时取等,此时
α=P(i=1mAi)=1P(i=1mAiC)=1i=1mP(AiC)=1(1αB)m\alpha= P(\bigcup_{i=1}^m A_i) = 1 - P(\bigcap_{i=1}^m A_i^C) \\ = 1 - \prod_{i=1}^mP( A_i^C) = 1 - (1-\alpha_B)^m

Benjamini-Hochberg方法

mm比较大之后,要拒绝原假设的条件会变得非常苛刻,甚至到几乎不可能的程度。为了得到更合理的推断,Benjamini-Hochberg方法用了比Bonferroni调整更宽松的条件:
假设p(i)p_{(i)}是这mm个p值的次序统计量,search
k=arg maxi=1,2,,m,p(i)kαmik = \argmax_{i=1,2,\cdots,m,p_{(i)} \le k\frac{\alpha}{m}} i
拒绝这kkp(1),,p(k)p_{(1)},\cdots,p_{(k)}对应的原假设。

Fisher方法

Fisher方法比较有意思,第五讲提到了原假设下p值服从均匀分布U[0,1]U[0,1]
p1,,pmiidU[0,1]p_1,\cdots,p_m \sim_{iid} U[0,1]
根据概率论推导过的结论,它等价于
2lnp1,,2lnpmiidexp(1/2)-2\ln p_1,\cdots,-2 \ln p_m \sim_{iid} exp(1/2)
因为mm个指数分布exp(1/2)exp(1/2)的和是gamma分布Γ(12,m)\Gamma(\frac{1}{2},m),它其实就是卡方分布χ2(2m)\chi^2(2m)。因此上面的结果可以写成
2lnp12lnpmχ2(2m)-2\ln p_1 - \cdots -2 \ln p_m \sim \chi^2(2m)
因此mm个联合检验的原假设下,可以用2lnp12lnpm-2\ln p_1 - \cdots -2 \ln p_m作为检验的统计量构造一个卡方检验。

False Discovery Rate

这里引入false discovery rate的概念,它是p值的一个替代品之一。这里就直接用我老师的ppt截图了
UA MATH566 统计理论7: Multiple Test
简单解释一下这张表,首先一共要同时做mm个检验,其中有mπ0m\pi_0个检验的原假设是真命题,m(1π0)m(1-\pi_0)个检验的备择假设是真命题。我们拒绝了RR个原假设,接受了mRm-R个原假设。每个检验有四种可能的结果:原假设为真、拒绝原假设;原假设为假,拒绝原假设;原假设为真,接受原假设;原假设为假,接受原假设,符合这四个结果的检验数目分别为V,S,U,TV,S,U,T。其中V,TV,T分别是type I error的数目和type II error的数目。

先讨论一下false discovery rate (FDR),ppt里面那个定义的意思就是FDR就是在拒绝原假设的条件下,原假设为真的概率。根据Hierarchical Model,p值服从混合分布
Fpvalue(x)=π0x+(1π0)ROC(x)F_{pvalue}(x) = \pi_0 x + (1-\pi_0)ROC(x)
如果选择α\alpha作为p值的上限,则
FDR=P[H0 is truereject H0]=P[reject H0H0 true]P[H0 true]P[reject H0]=απ0Fpvalue(α)FDR=P[H_0\ is\ true|reject\ H_0] \\= \frac{P[reject\ H_0|H_0\ true]P[H_0\ true]}{P[reject\ H_0]} = \frac{ \alpha \pi_0}{F_{pvalue}(\alpha)}
也就是说
FDR=π0απ0α+(1π0)(1β)FDR = \frac{\pi_0 \alpha}{\pi_0 \alpha + (1-\pi_0)(1-\beta)}