UA MATH566 统计理论5 假设检验:p值

UA MATH566 统计理论5 假设检验:p值

做实证研究的paper大多数都要汇报p值,并且几乎是只看p值的。2016年ASA做了一个关于p值的statement,指出了关于p值的六个错用与滥用:
UA MATH566 统计理论5 假设检验:p值
Statement指出,p值表示统计数据与某个特定的统计模型之间兼容性的强弱,并不能衡量研究假说为真的概率。科学结论、政策评估不能偏信p值,合理的推断应该以试验结果的充分性与透明性为基础。p值或者说显著性更不能衡量某种效应的强弱或者某个结果的重要性,因此它并不是支撑研究假说的好论据。

下面是这个statement给出的合理的统计研究的一些特征:
UA MATH566 统计理论5 假设检验:p值
Statement指出,合理的统计研究需要根据研究背景选择适当的模型、对原始数据做充分的可视化与描述性统计、正确使用统计模型、对模型结果做出合理的解释、保证试验结果具有可重复性。

这一讲介绍一下p值,帮助大家更好地理解statement的精神。

p-value

假设θ0\theta_0是真实的参数(也假设这个就是原假设),检验统计量T(X)T(X)(似然比检验那一篇会提到)的真实分布为FT(X)(tθ0)F_{T(X)}(t|\theta_0),假设这个分布函数可逆。则p值等于
pvalue=1FT(X)(T(X)θ0)pvalue = 1-F_{T(X)}(T(X)|\theta_0)
做一般性分析的时候,T(X)T(X)是随机变量,因此p值本质上也是一个随机变量。假设u[0,1]u \in [0,1],计算
P(FT(X)(T(X)θ0)uθ0)=P(T(X)FT(X)1(uθ0)θ0)=FT(X)(FT(X)1(uθ0)θ0)=uP(F_{T(X)}(T(X)|\theta_0) \le u|\theta_0) = P(T(X) \le F_{T(X)}^{-1}(u|\theta_0)|\theta_0) \\ = F_{T(X)}(F_{T(X)}^{-1}(u|\theta_0)|\theta_0)=u
也就是说FT(X)(T(X)θ0)F_{T(X)}(T(X)|\theta_0)服从均匀分布,所以p值也服从均匀分布。

假设显著性水平为α\alpha,则备择假设下(简单点,假设为θ=θ1\theta=\theta_1),拒绝域写成
C={X:T(X)kα}C=\{X:T(X) \ge k_{\alpha}\}
p值的分布为
P(1FT(X)(T(X)θ0)αθ1)=P(FT(X)(T(X)θ0)1αθ1)=P(FT(X)(T(X)θ0)FT(X)(kαθ0)θ1)=P(T(X)kαθ1)=1β(α)P(1-F_{T(X)}(T(X)|\theta_0) \le \alpha |\theta_1) = P(F_{T(X)}(T(X)|\theta_0) \ge 1-\alpha|\theta_1) \\ =P(F_{T(X)}(T(X)|\theta_0) \ge F_{T(X)}(k_{\alpha}|\theta_0)|\theta_1) = P(T(X)\ge k_{\alpha}|\theta_1) = 1-\beta(\alpha)
正好是ROC。

结合这两部分推导,p值的本质是随机变量,在原假设下,p值服从均匀分布;在备择假设下,p值的分布就是ROC。一般报告出来的p值是对给出的统计量的值在原假设下计算出来的概率,这个概率的含义与用统计量和相应分位点比较的方法本质上是一回事,没有提供额外的信息。如果是能够在备择假设下计算p值反而会稍微有点帮助,因为这样能直接给出type II error的概率,但实际应用中这个概率应该是求不出来的。综上,p值的含义其实相当局限,我们要打破唯p值论!