如果X1,X2,…,Xn是均值为μ,方差为σ2正态分布的随机样本,那么对任意正整数n,随机变量
∑n1Xi−nμσn‾‾√=n‾‾√(X¯n−μ)σ
满足均值为零方差为1的正态分布。在概率论中有个非常优雅的定理叫中心极限定理,这个定理的特殊情况指出了一个重要的事实:如果X1,X2,…,Xn为任意有限方差σ2>0(因此均值也是有限的)分布的大小为n的随机样本,那么随机变量n‾‾√(X¯−μ)/σ依分布收敛到标准正态分布,只要定理的条件满足,对于大的n随机变量n‾‾√(X¯−μ)/σ近似为均值为0方差为1的正态分布。这样的话我们可以用这个近似正态分布来计算与X¯相关的概率,在统计问题中μ是未知的,我们将用这个X¯的近似分布建立μ的近似置信区间。
定理1:X1,X2,…,Xn表示均值为μ方差为σ2分布的随机样本观测值,那么随机变量Yn=(∑n1Xi−nμ)/n‾‾√σ=n‾‾√(X¯−μ)/σ依分布收敛到满足均值为0方差为1正态分布的随机变量。
证明:我们额外假设−h<t<h时,mgfM(t)=E(etX)存在,如果用特征函数代替mgf即φ(t)=E(eitX),那么它总是存在的。
当−h<t<h时,函数
m(t)=E[et(X−μ)]=e−μtM(t)
也存在。因为m(t)是X−μ的mgf,所以m(0)=1,m′(0)=E(X−μ)=0,m″(0)=E[(X−μ)2]=σ2,根据泰勒公式存在0<ξ<t使得
m(t)=m(0)+m′(0)t+m″(ξ)t22=1+m″(ξ)t22
我们加上在减去σ2t2/2,得到
m(t)=1+σ2t22+[m″(ξ)−σ2]t22(1)
接下来考虑M(t;n),其中
M(t;n)=E[exp(t∑Xi−nμσn‾‾√)]=E[exp(tX1−μσn‾‾√)exp(tX2−μσn‾‾√)⋯exp(tXn−μσn‾‾√)]=E[exp(tX1−μσn‾‾√)]⋯E[exp(tXn−μσn‾‾√)]={E[exp(tX−μσn‾‾√)]}n=[n(tσn‾‾√)]n,−h<tσn‾‾√<h
在(1)中用t/σn‾‾√替换t可得
m(tσn‾‾√)=1+t22n+[m″(ξ)−σ2]t22nσ2
其中ξ位于0,t/σn‾‾√之间,所以
M(t;n)={1+t22n+[m″(ξ)−σ2]t22nσ2}n
因为m″(t)在t=0处连续,且n→∞时ξ→0,所以我们有
limn→∞[m″(ξ)−σ2]=0
根据极限的性质可得
limn→∞M(t;n)=et2/2
这就证明了随机变量Yn=n‾‾√(X¯n−μ)/σ有极限标准正态分布。||
我们可以这么解释上面的定理,当n是一个较大且固定的整数时,随机变量X¯近似为均值为μ方差为σ2/n的正态分布;在实际中我们用这个正态pdf近似实际的pdf。
例1:X¯表示pdf为
f(x)={100<x<1elsewhere
分布中随机得到75个样本的均值,那么要想计算P(0.45<X¯<0.55)这样的概率就很复杂。因为M(t)对所有的t实值存在,所以定理的条件满足,进一步μ=12,σ2=112,所以我们可以近似
P(0.45<X¯<0.55)=P[n‾‾√(0.45−μ)σ<n‾‾√(X¯−μ)σ<n‾‾√(0.55−μ)σ]=P[−1.5<30(X¯−0.5)<1.5]=0.866
例2:X1,X2,…,Xn表示从分布b(1,p)中得到的随机样本,这里μ=p,σ2=p(1−p),且对t的所有实值M(t)存在。如果Yn=X1+⋯+Xn,我们知道Yn满足b(n,p)。我们可以利用事实(Yn−np)/np(1−p)‾‾‾‾‾‾‾‾‾√=n‾‾√(X¯−p)/p(1−p)‾‾‾‾‾‾‾‾√=n‾‾√(X¯−μ)/σ的极限分布为均值0方差1的正态分布,很容易的计算出Yn的概率。一般来说统计量Yn近似为均值np方差np(1−p)的正态分布,即便n比较小如10,p=12使得二项分布关于np=5对称,如图1所示。N(5,52)拟合二项分布b(10,12)其中矩形的高度表示整数0,1,2,…,10的概率,底为(k−0.5,k+0.5)的矩形面积与k−0.5,k+0.5之间正态pdf下面的面积近似想等,这个实例有助于我们理解例3。
例3:考虑例2,n=100,p=12并假设我们相计算P(Y=48,49,50,51,52)的概率,因为Y是离散随机变量,所以{Y=48,49,50,51,52},{47.5<Y<52.5}是等价的事件,即P(Y=48,49,50,51,52)=P(47.5<Y<52.5)。因为np=50,np(1−p)=25,后者的概率可以写成
P(47.5<Y<52.5)=P(47.5−505<Y−505<52.5−505)=P(−0.5<Y−505<0.5)
因为(Y−50)/5近似满足均值为0方差为1的正态分布,所以查表即可得出答案。
图1
选择47.5<Y<52.5而不是47.8<Y<52.3作为事件Y=48,49,50,51,52的等价事件是因为:P(Y=48,49,50,51,52)的概率可以解释成矩形面积的和,而矩形的高度分别为P(Y=48),…,P(Y=52),如果这些矩形底的中点分别对应48,49,…,52,那么对于由横坐标,正态pdf以及两个坐标限定区域构成的近似和,我们取坐标点为47.5,52.5也是比较合理的,这称为连续性矫正。
我们知道当n足够大时X¯,∑n1Xi近似满足正态分布,随后我们会发现一些其它近似为正态分布的统计量,这也是为何正态分布为如此重要,虽然许多统计分布不是正态的,但是来自这些统计的随机样本统计量分布一般非常靠近正态分布。
许多情况下,我们对近似满足正态分布统计量的函数感兴趣,考虑例2的随机变量序列Yn,近似满足N[np,np(1−p)],np(1−p)是p的函数也即是Yn的方差,所以如果p未知,我们相估计Yn,因为E(Yn/n)=p,所以我们可以用n(Yn/n)(1−Yn/n)作为估计量。特别的它也近似满足正态分布吗?如果是的话均值与方差是多少?为了回答这个问题,需要使用Δ方法。
为了说明Δ方法,考虑样本均值的函数,我们知道X¯依概率收敛到μ且X¯近似为N(μ,σ2/n),假设我们对X¯n的函数感兴趣,u(X¯n),其中u在μ处可导且u′(μ)≠0,那么u(X¯)近似满足N{u(μ),[u′(μ)]2σ2/n},正式点说就是
u(Xn¯)−u(μ)[u′(μ)]2σ2/n‾‾‾‾‾‾‾‾‾‾‾‾√
满足极限标准正态分布。
例4:Yn(或者简单写为Y)满足b(n,p),那么Y/n近似满足N[p,p(1−p)]。统计学家经常要寻找方差不依赖参数的统计量函数,这里Y/n的方差依赖于p,那么我们能找到函数u(Y/n)使得其方差与p无关吗?因为Y/n依概率收敛到p,所以我们可以用一阶泰勒公式近似u(Y/n)
u(Yn)=v(Yn)=u(p)+(Yn−p)u′(p)
当然v(Y/n)是Y/n的线性函数,所以也近似正态分布;显然均值为u(p)方差为
[u′(p)]2p(1−p)n
为了让其独立p;我们令其等于常数,得到微分方程
u′(p)=cp(1−p)‾‾‾‾‾‾‾‾√
其解为
u(p)=(2c)arcsinp‾‾√
如果我们取c=12,因为u(Y/n)近似等于v(Y/n),所以我们有
u(Yn)=arcsinYn‾‾‾√
近似满足均值为p‾‾√方差为1/4n的正态分布。