UA MATH566 统计理论7: Multiple Test

Bonferroni调整

Benjamini-Hochberg方法

Fisher方法
False Discovery Rate

Multiple test就是同时做多个假设检验，回归和试验设计都有涉及到，那两个系列用的是Bonferroni方法和WHS方法。这里也介绍一下Bonferroni方法，另外再介绍一个Fisher方法。

Bonferroni调整

假设要同时做 $m$ 个假设检验，第 $i$ 个的p值为 $p_i,i=1,\cdots,m$ ，第 $i$ 个检验出现type I error的事件为 $A_i$ 。定义Family-wise error rate (FWER)表示至少有一个检验出现type I error的概率， $\alpha_B$ 表示单个检验的显著性水平。假设 $\alpha$ 为这 $m$ 个联合检验的显著性水平，根据Bonferroni不等式
$\alpha = P(\bigcup_{i=1}^m A_i) \le \sum_{i=1}^m P(A_i) = m\alpha_B$
因此拒绝第 $i$ 个检验的原假设的条件可以写为
$p_i \le \frac{\alpha}{m} \le \alpha_B$
这说明要同时做 $m$ 个假设检验的话，如果要求的显著性水平为 $\alpha$ ，那么对单个检验做判断时显著性水平应该用 $\alpha/m$ 。

注意到Bonferroni不等式在所有的 $A_i$ 都独立时取等，此时
$\alpha= P(\bigcup_{i=1}^m A_i) = 1 - P(\bigcap_{i=1}^m A_i^C) \\ = 1 - \prod_{i=1}^mP( A_i^C) = 1 - (1-\alpha_B)^m$

Benjamini-Hochberg方法

当 $m$ 比较大之后，要拒绝原假设的条件会变得非常苛刻，甚至到几乎不可能的程度。为了得到更合理的推断，Benjamini-Hochberg方法用了比Bonferroni调整更宽松的条件：
假设 $p_{(i)}$ 是这 $m$ 个p值的次序统计量，search
$k = \argmax_{i=1,2,\cdots,m,p_{(i)} \le k\frac{\alpha}{m}} i$
拒绝这 $k$ 个 $p_{(1)},\cdots,p_{(k)}$ 对应的原假设。

Fisher方法

Fisher方法比较有意思，第五讲提到了原假设下p值服从均匀分布 $U[0,1]$ ：
$p_1,\cdots,p_m \sim_{iid} U[0,1]$
根据概率论推导过的结论，它等价于
$-2\ln p_1,\cdots,-2 \ln p_m \sim_{iid} exp(1/2)$
因为 $m$ 个指数分布 $exp(1/2)$ 的和是gamma分布 $\Gamma(\frac{1}{2},m)$ ，它其实就是卡方分布 $\chi^2(2m)$ 。因此上面的结果可以写成
$-2\ln p_1 - \cdots -2 \ln p_m \sim \chi^2(2m)$
因此 $m$ 个联合检验的原假设下，可以用 $-2\ln p_1 - \cdots -2 \ln p_m$ 作为检验的统计量构造一个卡方检验。

False Discovery Rate

这里引入false discovery rate的概念，它是p值的一个替代品之一。这里就直接用我老师的ppt截图了
UA MATH566 统计理论7: Multiple Test
简单解释一下这张表，首先一共要同时做 $m$ 个检验，其中有 $m\pi_0$ 个检验的原假设是真命题， $m(1-\pi_0)$ 个检验的备择假设是真命题。我们拒绝了 $R$ 个原假设，接受了 $m-R$ 个原假设。每个检验有四种可能的结果：原假设为真、拒绝原假设；原假设为假，拒绝原假设；原假设为真，接受原假设；原假设为假，接受原假设，符合这四个结果的检验数目分别为 $V,S,U,T$ 。其中 $V,T$ 分别是type I error的数目和type II error的数目。

先讨论一下false discovery rate (FDR)，ppt里面那个定义的意思就是FDR就是在拒绝原假设的条件下，原假设为真的概率。根据Hierarchical Model，p值服从混合分布
$F_{pvalue}(x) = \pi_0 x + (1-\pi_0)ROC(x)$
如果选择 $\alpha$ 作为p值的上限，则
$FDR=P[H_0\ is\ true|reject\ H_0] \\= \frac{P[reject\ H_0|H_0\ true]P[H_0\ true]}{P[reject\ H_0]} = \frac{ \alpha \pi_0}{F_{pvalue}(\alpha)}$
也就是说
$FDR = \frac{\pi_0 \alpha}{\pi_0 \alpha + (1-\pi_0)(1-\beta)}$

UA MATH566 统计理论7: Multiple Test

UA MATH566 统计理论7: Multiple Test

Bonferroni调整

Benjamini-Hochberg方法

Fisher方法

False Discovery Rate

相关推荐