UA MATH566 统计理论8 用Pivot构造置信区间

用Pivot构造置信区间
一般性方法
最优置信区间

置信区间的频率派解释

上一讲介绍的构造置信区间的方法是根据假设检验导出置信区间，但我们感兴趣的分布不一定有耳熟能详的假设检验，就只能考虑用其他方法。这一讲介绍用Pivot构造置信区间。对于样本

X=\{X_1,\cdots,X_n\},X_i \in \mathbb{R}

，定义

Q(X,\theta)

，如果它的分布与参数

\theta

无关，则

Q

被称为pivot。需要注意的是Pivot和辅助统计量是不同的东西，Pivot是下面这样的映射

Q(x,\theta): \mathbb{R}^n \times \Theta \to \mathbb{R}^l

原像空间是样本和参数空间的直积，而辅助统计量只是样本的函数。

例1 Location Family的Pivot
用 $f(x-\theta)$ 表示Location family的密度函数，则
$Q(X,\theta) = \sum_{i=1}^n a_i (X_i - \theta)$
是pivot，其中 $a_i$ 是常数，所有的 $a_i$ 不能同时为0，比如 $a_i$ 取 $1/n$ ，那 $Q(X,\theta)=\bar{X}-\theta$ 。这个构造比较直观，因为 $X_i-\theta$ 的密度函数就是把 $f(x-\theta)$ 向右平移 $\theta$ ，也就是 $f(x)$ 。

例2 Scale Family的Pivot
用 $\frac{1}{\beta}f(x/\beta)$ 表示Scale family的密度函数，则
$Q(X,\theta) = \frac{\sum_{i=1}^n a_i X_i}{\beta}$
是pivot，其中 $a_i$ 是常数，所有的 $a_i$ 不能同时为0，比如 $a_i$ 取 $1$ ，那 $Q(X,\theta)=\frac{\sum_{i=1}^n X_i}{\beta}$ 。这个构造也比较直观，因为 $X_i/\beta$ 的密度函数就是把 $f(x/\beta)$ 沿 $x$ 轴拉长 $\beta$ 倍变成 $f(x)$ 。

例3 Location-Scale Family的Pivot
用 $\frac{1}{\beta}f((x-\theta)/\beta)$ 表示Location-Scale family的密度函数，则
$Q(X,\theta) = \frac{\sum_{i=1}^n a_i (X_i-\theta)}{\beta}$
是pivot，其中 $a_i$ 是常数，所有的 $a_i$ 不能同时为0。同样用函数变换的方式就会发现 $\frac{X_i-\theta}{\beta}$ 的密度是 $f(x)$ 。

用Pivot构造置信区间

假设有一个pivot $Q(X,\theta)$ ，假设存在 $l,u$ 满足
$P(l \le Q(X,\theta) \le u) = \gamma$
则 $C(X) = \{\theta:l\le Q(X,\theta) \le u\}$ 满足 $P(\theta \in C(X)) = \gamma$ ，根据这个不等式
$l \le Q(X,\theta) \le u$
解出 $\theta$ 的取值范围就是一个 $\gamma$ -level的CI。

例如 $Q(X,\theta)$ 关于 $\theta$ 单调递增，则根据
$Q(X,\hat{\theta}_l) = l,Q(X,\hat{\theta}_u) = u$
求解出 $\hat{\theta}_l(X)$ 和 $\hat{\theta}_u(X)$ ，就可以得到置信区间
$\hat{C}(X) = \{\theta: \hat{\theta}_l(X) \le \theta \le \hat{\theta}_u(X)\}$

例1续 Location Family的置信区间
用 $Q(X,\theta) = \bar{X}-\theta$ 作为Location family的pivot，显然 $Q(X,\theta)$ 关于 $\theta$ 是单调递减的，因此求解：
$Q(X,\hat{\theta}_l) =\bar{X}-\hat{\theta}_l= u \Rightarrow \hat{\theta}_l = \bar{X}-u \\ Q(X,\hat{\theta}_u) =\bar{X}-\hat{\theta}_u= l \Rightarrow \hat{\theta}_u = \bar{X}-l$
可以得到置信区间
$\hat{C}(X) = \{\theta: \bar{X}-u\le \theta \le \bar{X}-l\}$
其中 $l,u$ 满足
$P(l \le Q(X,\theta) \le u) = \gamma$

例4 均匀分布的pivot
因为这个操作太简单了，这里就提一下pivot选取。对于均匀分布 $U[0,\theta]$ ，定义
$Q(X,\theta) = \frac{X_{(n)}}{\theta} = \left( \frac{X}{\theta} \right)_{(n)}$
也就是说 $Q(X,\theta)$ 的分布与 $U[0,1]$ 的最后一个次序统计量的分布相同，即 $F_{Q}(x) = x^n$ ，显然 $Q(X,\theta)$ 是一个pivot。

一般性方法

如果不是Location-Scale Family，也没办法一眼找出Pivot出来，可以用下面这个定理。
定理如果统计量 $T(X)$ 的分布为 $F_T(t|\theta)$ ，假设 $\alpha_1$ 和 $\alpha_2$ 分别是置信区间左侧和右侧的之外的概率，即
$P(\theta < \hat{\theta}_l) = \alpha_1,P(\theta > \hat{\theta}_u) = \alpha_2$
如果 $\alpha_1 + \alpha_2=1-\gamma$ ， $F_T(t|\theta)$ 关于 $\theta$ 递减，定义 $\hat{\theta}_l$ 和 $\hat{\theta}_u$ 满足
$F_T(t|\hat{\theta}_u(t)) = \alpha_1,F_T(t|\hat{\theta}_l(t)) = 1-\alpha_2$
则 $[\hat{\theta}_l(T),\hat{\theta}_u(T)]$ 是 $\gamma$ -置信区间。

注：这个定理其实没啥好证的，因为
$P\{\theta \in [\hat{\theta}_l(T),\hat{\theta}_u(T)]\} = P\{\ \theta : \alpha_1 \le F_T(T|\theta) \le 1-\alpha_2\}$
要推广到递增的情况或者单侧置信区间都比较直接。然后使用这个定理主要的问题就是怎么选统计量 $T(X)$ ，个人建议是不知道挑啥就用充分统计量或者MLE吧，毕竟它们性质那么好不是放在那儿好看的。

例4续 均匀分布的置信区间（这道题我不想打了，直接贴我老师的slides）
UA MATH566 统计理论8 用Pivot构造置信区间

最优置信区间

我们总是希望置信区间越短越好，可以写成最优化问题
$\min E[\hat{\theta}_u - \hat{\theta}_l] \\ s.t. P[\hat{\theta}_l \le \theta \le \hat{\theta}_u] \ge \gamma$

有一个比较有用的性质，对于有单峰且对称的密度函数的统计量 $T(X)$ ，最优置信区间一定也是对称的。这个性质可以给之前的双边Z检验和t检验提供依据。
证明
假设 $\Theta \subset \mathbb{R}$ ，考虑上面那个优化的对偶问题：给定置信区间的长度为 $c$ ，想要找一个左端点 $a$ 使得置信区间覆盖的概率最大，即
$\max_{a} F_T(a+c)-F_T(a)$
简单求导一下
$f_T(a+c) - f_T(a)=0$
因为密度函数单峰且对称，根据这个一阶条件： $a$ 和 $a+c$ 要关于 $a+\frac{c}{2}$ 对称。

置信区间的频率派解释

置信区间的构造靠的是 $\hat{\theta}_l(X)$ 和 $\hat{\theta}_u(X)$ 这两个统计量，需要注意的是这两个统计量的表达式是我们在进行试验或者收集数据之前就自然存在的，他们是简单随机样本的函数，是两个随机变量。

一旦我们收集到了数据，相当于就有了一组简单随机样本的realization，这组数据就是确定的数，根据那两个统计量表达式确定出来的置信区间的上界和下界也就是确定的数，置信区间也就是一个确定的区间了。在统计频率派观点中，真实的参数值是确定的数值，因此这个确定的置信区间包含真实参数与否就是包含/不包含这两种确定的结果，包含就是包含，不包含就是不包含，不存在说包含的概率就是置信度。

那么置信度 $\gamma$ 应该怎么理解呢？
如果我们重复抽取多组随机样本，每一组都算出一个置信区间，那么当我们抽取的随机样本的组数越来越多的时候，置信区间包含真实参数的频率也就越来越接近 $\gamma$ 。这个才是按频率派对置信区间的解读。

UA MATH566 统计理论8 用Pivot构造置信区间

UA MATH566 统计理论8 用Pivot构造置信区间

用Pivot构造置信区间

一般性方法

最优置信区间

置信区间的频率派解释

相关推荐