漫步数理统计三十二——中心极限定理

如果X1,X2,,Xn是均值为μ,方差为σ2正态分布的随机样本,那么对任意正整数n,随机变量

n1Xinμσn=n(X¯nμ)σ

满足均值为零方差为1的正态分布。在概率论中有个非常优雅的定理叫中心极限定理,这个定理的特殊情况指出了一个重要的事实:如果X1,X2,,Xn为任意有限方差σ2>0(因此均值也是有限的)分布的大小为n的随机样本,那么随机变量n(X¯μ)/σ依分布收敛到标准正态分布,只要定理的条件满足,对于大的n随机变量n(X¯μ)/σ近似为均值为0方差为1的正态分布。这样的话我们可以用这个近似正态分布来计算与X¯相关的概率,在统计问题中μ是未知的,我们将用这个X¯的近似分布建立μ的近似置信区间。

1X1,X2,,Xn表示均值为μ方差为σ2分布的随机样本观测值,那么随机变量Yn=(n1Xinμ)/nσ=n(X¯μ)/σ依分布收敛到满足均值为0方差为1正态分布的随机变量。

我们额外假设h<t<h时,mgfM(t)=E(etX)存在,如果用特征函数代替mgf即φ(t)=E(eitX),那么它总是存在的。

h<t<h时,函数

m(t)=E[et(Xμ)]=eμtM(t)

也存在。因为m(t)Xμ的mgf,所以m(0)=1,m(0)=E(Xμ)=0,m(0)=E[(Xμ)2]=σ2,根据泰勒公式存在0<ξ<t使得

m(t)=m(0)+m(0)t+m(ξ)t22=1+m(ξ)t22

我们加上在减去σ2t2/2,得到

m(t)=1+σ2t22+[m(ξ)σ2]t22(1)

接下来考虑M(t;n),其中

M(t;n)=E[exp(tXinμσn)]=E[exp(tX1μσn)exp(tX2μσn)exp(tXnμσn)]=E[exp(tX1μσn)]E[exp(tXnμσn)]={E[exp(tXμσn)]}n=[n(tσn)]n,h<tσn<h

(1)中用t/σn替换t可得

m(tσn)=1+t22n+[m(ξ)σ2]t22nσ2

其中ξ位于0,t/σn之间,所以

M(t;n)={1+t22n+[m(ξ)σ2]t22nσ2}n

因为m(t)t=0处连续,且nξ0,所以我们有

limn[m(ξ)σ2]=0

根据极限的性质可得

limnM(t;n)=et2/2

这就证明了随机变量Yn=n(X¯nμ)/σ有极限标准正态分布。||

我们可以这么解释上面的定理,当n是一个较大且固定的整数时,随机变量X¯近似为均值为μ方差为σ2/n的正态分布;在实际中我们用这个正态pdf近似实际的pdf。

1X¯表示pdf为

f(x)={100<x<1elsewhere

分布中随机得到75个样本的均值,那么要想计算P(0.45<X¯<0.55)这样的概率就很复杂。因为M(t)对所有的t实值存在,所以定理的条件满足,进一步μ=12,σ2=112,所以我们可以近似

P(0.45<X¯<0.55)=P[n(0.45μ)σ<n(X¯μ)σ<n(0.55μ)σ]=P[1.5<30(X¯0.5)<1.5]=0.866

2X1,X2,,Xn表示从分布b(1,p)中得到的随机样本,这里μ=p,σ2=p(1p),且对t的所有实值M(t)存在。如果Yn=X1++Xn,我们知道Yn满足b(n,p)。我们可以利用事实(Ynnp)/np(1p)=n(X¯p)/p(1p)=n(X¯μ)/σ的极限分布为均值0方差1的正态分布,很容易的计算出Yn的概率。一般来说统计量Yn近似为均值np方差np(1p)的正态分布,即便n比较小如10,p=12使得二项分布关于np=5对称,如图1所示。N(5,52)拟合二项分布b(10,12)其中矩形的高度表示整数0,1,2,,10的概率,底为(k0.5,k+0.5)的矩形面积与k0.5,k+0.5之间正态pdf下面的面积近似想等,这个实例有助于我们理解例3。

3考虑例2,n=100,p=12并假设我们相计算P(Y=48,49,50,51,52)的概率,因为Y是离散随机变量,所以{Y=48,49,50,51,52},{47.5<Y<52.5}是等价的事件,即P(Y=48,49,50,51,52)=P(47.5<Y<52.5)。因为np=50,np(1p)=25,后者的概率可以写成

P(47.5<Y<52.5)=P(47.5505<Y505<52.5505)=P(0.5<Y505<0.5)

因为(Y50)/5近似满足均值为0方差为1的正态分布,所以查表即可得出答案。


漫步数理统计三十二——中心极限定理
图1

选择47.5<Y<52.5而不是47.8<Y<52.3作为事件Y=48,49,50,51,52的等价事件是因为:P(Y=48,49,50,51,52)的概率可以解释成矩形面积的和,而矩形的高度分别为P(Y=48),,P(Y=52),如果这些矩形底的中点分别对应48,49,,52,那么对于由横坐标,正态pdf以及两个坐标限定区域构成的近似和,我们取坐标点为47.5,52.5也是比较合理的,这称为连续性矫正。

我们知道当n足够大时X¯,n1Xi近似满足正态分布,随后我们会发现一些其它近似为正态分布的统计量,这也是为何正态分布为如此重要,虽然许多统计分布不是正态的,但是来自这些统计的随机样本统计量分布一般非常靠近正态分布。

许多情况下,我们对近似满足正态分布统计量的函数感兴趣,考虑例2的随机变量序列Yn,近似满足N[np,np(1p)]np(1p)p的函数也即是Yn的方差,所以如果p未知,我们相估计Yn,因为E(Yn/n)=p,所以我们可以用n(Yn/n)(1Yn/n)作为估计量。特别的它也近似满足正态分布吗?如果是的话均值与方差是多少?为了回答这个问题,需要使用Δ方法。

为了说明Δ方法,考虑样本均值的函数,我们知道X¯依概率收敛到μX¯近似为N(μ,σ2/n),假设我们对X¯n的函数感兴趣,u(X¯n),其中uμ处可导且u(μ)0,那么u(X¯)近似满足N{u(μ),[u(μ)]2σ2/n},正式点说就是

u(Xn¯)u(μ)[u(μ)]2σ2/n

满足极限标准正态分布。

4Yn(或者简单写为Y)满足b(n,p),那么Y/n近似满足N[p,p(1p)]。统计学家经常要寻找方差不依赖参数的统计量函数,这里Y/n的方差依赖于p,那么我们能找到函数u(Y/n)使得其方差与p无关吗?因为Y/n依概率收敛到p,所以我们可以用一阶泰勒公式近似u(Y/n)

u(Yn)=v(Yn)=u(p)+(Ynp)u(p)

当然v(Y/n)Y/n的线性函数,所以也近似正态分布;显然均值为u(p)方差为

[u(p)]2p(1p)n

为了让其独立p;我们令其等于常数,得到微分方程

u(p)=cp(1p)

其解为

u(p)=(2c)arcsinp

如果我们取c=12,因为u(Y/n)近似等于v(Y/n),所以我们有

u(Yn)=arcsinYn

近似满足均值为p方差为1/4n的正态分布。