置信区间

官方定义

置信区间是指由样本统计量所构造的总体参数的估计区间。在统计学中，一个概率样本的置信区间（Confidence interval）是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数的测量值的可信程度，即前面所要求的“一个概率”。[1]
对于一组给定的样本数据，其平均值为 $μ$ ，标准偏差为 $σ$ ，则其整体数据的平均值的 $(1 - α) \times 100 %$ 置信区间为 $(μ - Z_{α / 2} σ, μ + Z_{α / 2} σ)$ ，其中 $(1 - α)$ 为置信水平， $α$ 为非置信水平在正态分布内的覆盖面积， , $Z_{σ / 2}$ 为对应的标准分数，又被称为 $z$ 分数， $z = (x - μ) / σ$ ，它是将原始分数与团体的平均数之差除以标准差所得的商数，是以标准差为单位度量原始分数离开其平均数的分数之上多少个标准差。

举例

有某量服从正态分布如下：

X \sim N (μ, σ^{2})

其中 $μ$ 未知， $σ$ 已知。为了估计 $μ$ ，对其进行采样，样本大小为 $n$ ，得到样本均值：

M = \frac{X_{1} + X_{2} + \dots + X_{n}}{n}

可以计算出以 $μ$ 为中心，面积为0.95的区间范围，如下图：
置信区间

即：

P (μ - 1.96 \frac{σ}{\sqrt{n}} \leq M \leq μ + 1.96 \frac{σ}{\sqrt{n}}) = 0.95

以 $1.96 \frac{σ}{\sqrt{n}}$ 为半径划出的区间即为95%置信区间，即随机抽取一个样本，有95%的可能性落在该区间内。
在评估一个量的大小时，我们既希望估得足够准确（区间足够窄），又希望估计值足够可信（置信水平高）。但是可以很直观地看到，这两个要求是相互矛盾的。人们从经验中得知95%置信水平使得估计精度和可信度达成了最佳的平衡关系，因此95%置信水平成为统计中一个约定俗成的习惯。

[1] 王福保, 闵华玲, 叶润修. 概率论及数理统计[J]. 上海: 上海同济大学出版杜, 1984, 1984.

官方定义

举例

相关推荐