漫步数理统计二十四——伽玛、卡方与贝塔分布

本篇博文我们讲介绍伽玛(Γ),卡方(χ2)与贝塔(β)分布。在高等微积分中已经证明过,对于α>0,积分

0yα1eydy

存在且积分值为正数,这个积分称为α的伽玛函数,写成

Γ(α)=0yα1eydy

如果α=1,显然

Γ(1)=0eydy=1

如果α>1,用分部积分法可得

Γ(α)=(α1)0yα2eydy=(α1)Γ(α1)

因此如果α是比1大的正整数,那么

Γ(α)=(α1)(α2)(3)(2)(1)Γ(1)=(α1)!

因为Γ(1)=1,这表明我们可以取0!=1

我们用积分形式定义了Γ(α),现在我们引入新变量y=x/β,其中β>0,那么

Γ(α)=0(xβ)α1ex/β(1β)dx

或者等价的

1=01Γ(α)βαxα1ex/βdx

因为α>0,β>0,Γ(α)>0,所以

f(x)={1Γ(α)βαxα1ex/β00<x<elsewhere

是连续型随机变量的pdf,有这种pdf形式的随机变量X满足参数为α,β的伽玛分布,写作X满足Γ(α,β)分布。

1伽玛分布是等待时间的概率模型;例如在寿命测试中,直到死亡的等待时间是用伽玛分布建模的随机变量。为了理解这个,假设泊松假定以及区间长度w是时间区间,特别地令随机变量W是得到k变化量所需要的时间,其中k是固定的正整数,那么W的cdf为

G(w)=P(Ww)=1P(W>w)

然而对于w>0,事件W>w等价于时间区间w内少于k变化量的概率,即如果随机变量X是区间w内的变化量,那么

P(W>w)=x=0k1P(X=x)=x=0k1(λw)xeλwx!

读者需要证明

λwzk1ez(k1)!dx=x=0k1(λw)xeλwx!

如果我们接受这个结论,那么对w>0我们有

G(w)=1λwzk1ezΓ(k)dz=λw0zk1ezΓ(k)dz

且对于w0,G(w)=0。如果我们改变积分变量,将z=λy代入的

G(w)=w0λkyk1eλyΓ(k)dy,w>0

且对于w0,G(w)=0。所以W的pdf为

g(w)=G(w)={λkyk1eλyΓ(k)00<w<elsewhere

W满足α=k,β=1/λ的伽玛分布,如果W是第一次变化的等待时间,即k=1,那么W的pdf为

g(w)={λeλw00<w<elsewhere

W满足参数为λ的指数分布。

接下来计算伽玛分布的mgf。因为

M(t)=0etx1Γ(α)βαxα1ex/βdx=01Γ(α)βαxα1ex(1βt)/βdx

我们可以令y=x(1βt)/β,t<1/β或者x=βy/(1βt) 得到

M(t)=0β/(1βt)Γ(α)βα(βy1βt)α1eydy


M(t)=(11βt)α01Γ(α)yα1eydy=1(1βt)α,t<1β

现在

M(t)=(α)(1βt)α1(β)


M(t)=(α)(α1)(1βt)α2(β)2

因此对于伽玛分布我们有

μ=M(0)=αβ


σ2=M(0)μ2=α(α+1)β2α2β2=αβ2

1令等待时间W满足α=k,β=1/λ的伽玛pdf,那么E(W)=k/λ。如果k=1,那么E(W)=1/λ;即对于k=1变化的期望等待时间等于λ的倒数。

2X表示随机变量,使得

E(Xm)=(m+3)!3!3m,m=1,2,3,

那么X的mgf为级数

M(t)=1+4!33!1!t+5!323!2!t2+6!333!3!t3+

然而这是(13t)4的麦克劳林级数,假设1<3t<1。因此X满足α=4,β=3的伽玛分布。

2伽玛分布不仅是等待时间的模型,也是许多非负连续型随机变量的模型。例如某些收入的分布可以用伽玛分布来建模,这是因为α,β提供了很大的灵活性,图1给出了几个伽玛概率密度函数。


漫步数理统计二十四——伽玛、卡方与贝塔分布
图1

现在我们考虑伽玛分布的一个特例,即α=r/2,其中r是一个正数且β=2。对于一个连续型的随机变量,其pdf为

f(x)={1Γ(r/2)2r/2xr/21ex/200<x<elsewhere

且mgf为

M(t)=(12t)r/2,t<12

那么称该变量满足卡方分布,任意这种形式的f(x)称为卡方pdf,卡方分布的均值与方差分别为μ=αβ=(r/2)2=r,σ2=αβ2=(r/2)22=2r,我们称参数r为卡方分布的*度。因为卡方分布在统计中扮演着重要角色且经常出现,所以为了简洁Xχ2意味着随机变量X满足*度为r的卡方分布。

3如果X满足pdf

f(x)={14xex/200<x<elsewhere

那么Xχ2(4),这里μ=4,σ2=8,M(t)=(12t)2,t<12

4如果X有mgfM(t)=(12t)8,t<12,那么Xχ2(16)

如果随机变量Xχ2(r),那么c1<c2时我们有

P(c1<X<c2)=P(Xc2)P(Xc1)

这是因为P(X=c2)=0。为了计算概率,我们需要像

P(Xx)=x01Γ(r/2)2r/2wr/21ew/2dw

这样的值,这些值有表可供查询。

下面的结论之后还会用几次;因此我们用定理的形式给出。

1X满足χ2(r)分布,如果k>r/2,那么E(Xk)存在且等于

E(Xk)=2kΓ(r2+k)Γ(r2),if k>r/2

注意

E(Xk)=01Γ(r2)2r/2x(r/2)+k1ex/2dx

变量替换u=x/2可得

E(Xk)=01Γ(r2)2r/212(r/2)+k1u(r/2)+k1eudu

这就是要求的揭露。||

注意如果k是一个非负整数,那么k>(r/2)总是为真,因此χ2分布的所有矩存在且k阶矩如定理所示。

5Xχ2(10),那么通过查表可得,

P(3.25X20.5)=P(X20.5)P(X3.5)=0.9750.025=0.95

如果P(a<X)=0.05,那么P(Xa)=0.95,通过查表可得a=18.3

6X满足α=r/2的伽玛分布,其中r是正整数且β>0。定义随机变量Y=2X/β,我们要求Y的pdf。现在Y的cdf为

G(y)=P(Yy)=P(Xβy2)

如果y0,那么G(y)=0;但是如果y>0,那么

G(y)=βy/201Γ(r/2)βr/2xr/21ex/βdx

因此Y的pdf为

g(y)=G(y)=β/2Γ(r/2)βr/2(βy/2)r/21ey/2=1Γ(r/2)2r/2yr/21ey/2

Yχ2(r)

伽玛分布最重要的一条性质是其加性。

2X1,,Xn是独立随机变量,假设对于i=1,,nXi满足Γ(αi,β)分布,令Y=Σni=1Xi,那么Y满足Γ(Σni=1αiβ)分布。

利用独立性与伽玛分布的mgf,对于t<1/β我们有

MY(t)=E[exp{ti=1nXi}]=i=1nE[exp{tXi}]=i=1n(1βt)αi=(1βt)Σni=1αi

这就是Γ(Σni=1αi,β)分布的mgf。||

之后我们会用到χ2分布的一个性质,为了方便我们将结论以推论的形式给出,因为β=2,Σαi=Σri/2

1X1,,Xn是独立随机变量,对于i=1,,n,假设Xi满足χ2(ri)分布,令Y=Σni=1Xi,那么Y满足χ2(Σni=1ri)分布。

最后在介绍一个重要的分布,即贝塔分布,它是由一对独立的Γ随机变量推导来的。令X1,X2是满足Γ分布的两个独立随机变量,其联合pdf为

h(x1,x2)=1Γ(α)Γ(β)xα11xβ12ex1x2,0<x1<,0<x2<

其余地方为零,其中α>0,β>0。令Y1=X1+X2Y2=X1/(X1+X2),我们将说明Y1,Y2是独立的。

空间x1x2平面的第一象限,排除坐标轴上的点。那么

y1=u1(x1,x2)=x1+x2y2=u2(x1,x2)=x1x1+x2

可以写成x1=y1y2,x2=y1(1y2),所以

J=y21y2y1y1=y10

这个变换时一对一的且将映射到y1y2平面上的={(y1,y2):0<y1<,0<y2<1},那么Y1,Y2的联合pdf为

g(y1,y2)=(y1)1Γ(α)Γ(β)(y1y2)α1[y1(1y2)]β1ey1={yα12(1y2)β1Γ(α)Γ(β)yα+β11ey100<y1<,0<y2<1elsewhere

所以他们是独立的随机变量。Y2的边缘pdf为

g2(y2)=yα12(1y2)β1Γ(α)Γ(β)0yα+β11ey1={Γ(α+β)Γ(α)Γ(β)yα12(1y2)β100<y2<1elsewhere0<y1<dy1

这个pdf就是参数为α,β的贝塔分布。因为g(y1,y2)g1(y1)g2(y2),所以Y1的pdf一定为

g1(y1)={1Γ(α+β)yα+β11ey100<y1<elsewhere

这是参数值为α+β,1的伽玛分布。

很容易得出参数为α,β的贝塔分布其均值与方差分别为

μ=αα+β,σ2=αβ(α+β+1)(α+β)2

最后这个例子中随机变量的分布是由伽玛随机变量变换推导出来的。

7(狄利克雷函分布)令X1,X2,,Xk+1是独立随机变量,每个都满足β=1的伽玛分布,这些变量的联合pdf可能写成

h(x1,x2,,xk+1)={k+1i=11Γ(αi)xαi1iexi00<xi<elsewhere


Yi=XiX1+X2++Xk+1,i=1,2,,k

Yk+1=X1+X2++Xk+1表示k+1个新变量,相关变换将={(x1,,xk+1):0<xi<,i=1,,k+1} 映射到空间

={(y1,,yk,yk+1):0<yi,i=1,,k,y1++yk<1,0<yk+1<}

单值逆函数是x1=y1yk+1,,xk=ykyk+1,xk+1=yk+1(1y1yk),使得雅克比为

J=yk+100yk+10yk+10yk+100yk+1yk+1y1y2yk(1y1yk)=ykk+1

因此Y1,,Yk,Yk+1的联合pdf为

yα1++αk+11k+1yα111yαk1k(1y1yk)αk+11eyk+1Γ(α1)Γ(αk)Γ(αk+1)

其余地方为零,这里(y1,,yk,yk+1)Y1,,Yk 的联合pdf为

g(y1,,yk)=Γ(α1++αk+1)Γ(α1)Γ(αk+1)yα111yαk1k(1y1yk)αk+11

0<yi,i=1,,k,y1++yk<1,函数g在其他地方等于零。有这种联合pdf形式的随机变量Y1,,Yk 有狄利克雷pdf,而且从Y1,,Yk,Yk+1的联合pdf 可以看出Yk+1满足参数为α1++αk+αk+1,β=1的伽玛分布,Yk+1Y1,Y2,,Yk无关。