漫步数理统计三十二——中心极限定理

如果X1,X2,…,Xn是均值为μ，方差为σ2正态分布的随机样本，那么对任意正整数n，随机变量

\sum n 1 X i - n μ σ n ‾ ‾ \sqrt = n ‾ ‾ \sqrt (X ¯ n - μ) σ

满足均值为零方差为1的正态分布。在概率论中有个非常优雅的定理叫中心极限定理，这个定理的特殊情况指出了一个重要的事实：如果X1,X2,…,Xn为任意有限方差σ2>0(因此均值也是有限的)分布的大小为n的随机样本，那么随机变量n‾‾√(X¯−μ)/σ依分布收敛到标准正态分布，只要定理的条件满足，对于大的n随机变量n‾‾√(X¯−μ)/σ近似为均值为0方差为1的正态分布。这样的话我们可以用这个近似正态分布来计算与X¯相关的概率，在统计问题中μ是未知的，我们将用这个X¯的近似分布建立μ的近似置信区间。

定理1：X1,X2,…,Xn表示均值为μ方差为σ2分布的随机样本观测值，那么随机变量Yn=(∑n1Xi−nμ)/n‾‾√σ=n‾‾√(X¯−μ)/σ依分布收敛到满足均值为0方差为1正态分布的随机变量。

证明：我们额外假设−h<t<h时，mgfM(t)=E(etX)存在，如果用特征函数代替mgf即φ(t)=E(eitX)，那么它总是存在的。

当−h<t<h时，函数

m (t) = E [e t (X - μ)] = e - μ t M (t)

也存在。因为m(t)是X−μ的mgf，所以m(0)=1,m′(0)=E(X−μ)=0,m″(0)=E[(X−μ)2]=σ2，根据泰勒公式存在0<ξ<t使得

m (t) = m (0) + m' (0) t + m ″ (ξ) t 2 2 = 1 + m ″ (ξ) t 2 2

我们加上在减去σ2t2/2，得到

m (t) = 1 + σ 2 t 2 2 + [m ″ (ξ) - σ 2] t 2 2 (1)

接下来考虑M(t;n)，其中

M (t; n) = E [exp (t \sum X i - n μ σ n ‾ ‾ \sqrt)] = E [exp (t X 1 - μ σ n ‾ ‾ \sqrt) exp (t X 2 - μ σ n ‾ ‾ \sqrt) \dots exp (t X n - μ σ n ‾ ‾ \sqrt)] = E [exp (t X 1 - μ σ n ‾ ‾ \sqrt)] \dots E [exp (t X n - μ σ n ‾ ‾ \sqrt)] = {E [exp (t X - μ σ n ‾ ‾ \sqrt)]} n = [n (t σ n ‾ ‾ \sqrt)] n, - h < t σ n ‾ ‾ \sqrt < h

在(1)中用t/σn‾‾√替换t可得

m (t σ n ‾ ‾ \sqrt) = 1 + t 2 2 n + [m ″ (ξ) - σ 2] t 2 2 n σ 2

其中ξ位于0,t/σn‾‾√之间，所以

M (t; n) = {1 + t 2 2 n + [m ″ (ξ) - σ 2] t 2 2 n σ 2} n

因为m″(t)在t=0处连续，且n→∞时ξ→0，所以我们有

lim n \to \infty [m ″ (ξ) - σ 2] = 0

根据极限的性质可得

lim n \to \infty M (t; n) = e t 2 / 2

这就证明了随机变量Yn=n‾‾√(X¯n−μ)/σ有极限标准正态分布。||

我们可以这么解释上面的定理，当n是一个较大且固定的整数时，随机变量X¯近似为均值为μ方差为σ2/n的正态分布；在实际中我们用这个正态pdf近似实际的pdf。

例1：X¯表示pdf为

f (x) = {10 0 < x < 1 e l s e w h e r e

分布中随机得到75个样本的均值，那么要想计算P(0.45<X¯<0.55)这样的概率就很复杂。因为M(t)对所有的t实值存在，所以定理的条件满足，进一步μ=12,σ2=112，所以我们可以近似

P (0.45 < X ¯ < 0.55) = P [n ‾ ‾ \sqrt (0.45 - μ) σ < n ‾ ‾ \sqrt (X ¯ - μ) σ < n ‾ ‾ \sqrt (0.55 - μ) σ] = P [- 1.5 < 30 (X ¯ - 0.5) < 1.5] = 0.866

例2：X1,X2,…,Xn表示从分布b(1,p)中得到的随机样本，这里μ=p,σ2=p(1−p)，且对t的所有实值M(t)存在。如果Yn=X1+⋯+Xn，我们知道Yn满足b(n,p)。我们可以利用事实(Yn−np)/np(1−p)‾‾‾‾‾‾‾‾‾√=n‾‾√(X¯−p)/p(1−p)‾‾‾‾‾‾‾‾√=n‾‾√(X¯−μ)/σ的极限分布为均值0方差1的正态分布，很容易的计算出Yn的概率。一般来说统计量Yn近似为均值np方差np(1−p)的正态分布，即便n比较小如10，p=12使得二项分布关于np=5对称，如图1所示。N(5,52)拟合二项分布b(10,12)其中矩形的高度表示整数0,1,2,…,10的概率，底为(k−0.5,k+0.5)的矩形面积与k−0.5,k+0.5之间正态pdf下面的面积近似想等，这个实例有助于我们理解例3。

例3：考虑例2，n=100,p=12并假设我们相计算P(Y=48,49,50,51,52)的概率，因为Y是离散随机变量，所以{Y=48,49,50,51,52},{47.5<Y<52.5}是等价的事件，即P(Y=48,49,50,51,52)=P(47.5<Y<52.5)。因为np=50,np(1−p)=25，后者的概率可以写成

P (47.5 < Y < 52.5) = P (47.5 - 50 5 < Y - 50 5 < 52.5 - 50 5) = P (- 0.5 < Y - 50 5 < 0.5)

因为(Y−50)/5近似满足均值为0方差为1的正态分布，所以查表即可得出答案。

图1

选择47.5<Y<52.5而不是47.8<Y<52.3作为事件Y=48,49,50,51,52的等价事件是因为：P(Y=48,49,50,51,52)的概率可以解释成矩形面积的和，而矩形的高度分别为P(Y=48),…,P(Y=52)，如果这些矩形底的中点分别对应48,49,…,52，那么对于由横坐标，正态pdf以及两个坐标限定区域构成的近似和，我们取坐标点为47.5，52.5也是比较合理的，这称为连续性矫正。

我们知道当n足够大时X¯,∑n1Xi近似满足正态分布，随后我们会发现一些其它近似为正态分布的统计量，这也是为何正态分布为如此重要，虽然许多统计分布不是正态的，但是来自这些统计的随机样本统计量分布一般非常靠近正态分布。

许多情况下，我们对近似满足正态分布统计量的函数感兴趣，考虑例2的随机变量序列Yn，近似满足N[np,np(1−p)]，np(1−p)是p的函数也即是Yn的方差，所以如果p未知，我们相估计Yn，因为E(Yn/n)=p，所以我们可以用n(Yn/n)(1−Yn/n)作为估计量。特别的它也近似满足正态分布吗？如果是的话均值与方差是多少？为了回答这个问题，需要使用Δ方法。

为了说明Δ方法，考虑样本均值的函数，我们知道X¯依概率收敛到μ且X¯近似为N(μ,σ2/n)，假设我们对X¯n的函数感兴趣，u(X¯n)，其中u在μ处可导且u′(μ)≠0，那么u(X¯)近似满足N{u(μ),[u′(μ)]2σ2/n}，正式点说就是

u (X n ¯) - u (μ) [u' (μ)] 2 σ 2 / n ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt

满足极限标准正态分布。

例4：Yn(或者简单写为Y)满足b(n,p)，那么Y/n近似满足N[p,p(1−p)]。统计学家经常要寻找方差不依赖参数的统计量函数，这里Y/n的方差依赖于p，那么我们能找到函数u(Y/n)使得其方差与p无关吗？因为Y/n依概率收敛到p，所以我们可以用一阶泰勒公式近似u(Y/n)

u (Y n) = v (Y n) = u (p) + (Y n - p) u' (p)

当然v(Y/n)是Y/n的线性函数，所以也近似正态分布；显然均值为u(p)方差为

[u' (p)] 2 p (1 - p) n

为了让其独立p；我们令其等于常数，得到微分方程

u' (p) = c p (1 - p) ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt

其解为

u (p) = (2 c) arcsin p ‾ ‾ \sqrt

如果我们取c=12，因为u(Y/n)近似等于v(Y/n)，所以我们有

u (Y n) = arcsin Y n ‾ ‾ ‾ \sqrt

近似满足均值为p‾‾√方差为1/4n的正态分布。

漫步数理统计三十二——中心极限定理

相关推荐