抽样分布之χ2 分布,t分布,F分布


统计量的分布称为抽样分布,在使用统计量进行统计推断时需要知道它的分布,当总体的分布函数已知时,抽样分布是确定的,然而要求出统计量的精确分布,一般来说是困难的,下面介绍来自正态总体的几个常用统计量的分布.

1. χ2\chi^2 分布

  • 定义

    X1,X2,,XnX_1,X_2,\cdots,X_n 是来自总体N(0,1)N(0,1)的样本,则称统计量χ2=i=1nXi2,i=1,2,3,n\chi^2 = \sum\limits_{i=1}^{n}X_i^2,\quad i = 1,2,3\cdots,n 服从自由度为nnχ2\chi^2分布,记为χ2χ2(n).\chi^2\sim\chi^2(n).

    此处的自由度是指独立变量的个数

  • χ2\chi^2分布的概率密度

    f(y)={12n/2Γ(n/2)yn/21ey/2,y>00,elsef(y) = \begin{cases} \frac{1}{2^{n/2}\Gamma(n/2)}y^{n/2-1}e^{-y/2},\quad y>0 \\\\0, \quad else\end{cases}

    其图像如下
    抽样分布之χ2 分布,t分布,F分布

    • 图像为单峰曲线
    • 图像为非对称图形
    • n>2n>2时,在n2n-2处取得最大值
    • nn越大,峰越往右,图像也越趋于对称,当nn很大时,可近似看做正态分布
  • χ2\chi^2分布性质

    1. χ2\chi^2分布的可加性

      χ12χ2(n1),χ22χ2(n2)\chi_1^2 \sim \chi^2(n_1),\chi_2^2 \sim \chi^2(n_2),并且χ12,χ22\chi_1^2,\chi_2^2相互独立,则有χ12+χ22χ2(n1+n2)\begin{aligned} \chi_1^2+\chi_2^2 \sim \chi^2(n_1+n_2) \end{aligned}

    2. χ2\chi^2分的数学期望和方差

      E(χ2)=n,D(χ2)=2n.E(\chi^2)=n,D(\chi^2)=2n.

      证明:

      由于 χ2=i=1nXi2\chi^2 = \sum\limits_{i=1}^{n}X_i^2,其中XiN(0,1)X_i \sim N(0,1) ,因此有

      E(Xi2)=D(Xi)+(EXi)2=1+0=1E(X_i^2) = D(X_i)+(EX_i)^2 = 1+0=1

      因此 E(χ2)=nE(Xi2)=nE(\chi^2) = n*E(X_i^2) = n

      D(χ2)=nD(Xi2)=n[E(Xi2)2E(Xi2)]=n[E(Xi4)E(Xi2)]=nE(Xi4)n\begin{aligned} D(\chi^2) &= n*D(X_i^2) \\&= n*[E(X_i^2)^2-E(X_i^2)] \\&= n*[E(X_i^4)-E(X_i^2)] \\&=nE(X_i^4)-n\end{aligned}

      我们需要知道E(Xi4)E(X_i^4), 目前没有更好的方式,我们尝试使用期望的定义进行计算

      E(Xi4)=+x412πex22dx=12π+x4ex22dx=12π[x3ex22+++3x2ex22dx]=0+3+12πx2ex22dx=3+x212πex22dx\begin{aligned} E(X_i^4) &= \int_{-\infty}^{+\infty}x^4\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}dx \\&= \frac{1}{\sqrt{2\pi}}\int_{-\infty}^{+\infty}x^4e^{-\frac{x^2}{2}}dx \\&= \frac{1}{\sqrt{2\pi}}\bigg[-x^3e^{-\frac{x^2}{2}}\bigg|_{-\infty}^{+\infty}+\int_{-\infty}^{+\infty}3x^2e^{-\frac{x^2}{2}}dx\bigg] \\&=0+3\int_{-\infty}^{+\infty}\frac{1}{\sqrt{2\pi}}x^2e^{-\frac{x^2}{2}}dx \\&= 3\int_{-\infty}^{+\infty}x^2\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}dx\end{aligned}

      这里对后面的积分项可继续采用分部积分方法进行处理,但是这地方其实有个技巧 ,根据期望定义有

      E(Xi2)=+x212πex22dx\begin{aligned} E(X_i^2) = \int_{-\infty}^{+\infty}x^2\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}dx \end{aligned}

      前面我们已经算出 E(Xi2)=1E(X_i^2)=1

      因此有E(Xi2)=+x212πex22dx=1\begin{aligned} E(X_i^2) = \int_{-\infty}^{+\infty}x^2\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}dx=1 \end{aligned}

      所以有E(Xi4)=31=3E(X_i^4) = 3*1 = 3

      D(χ2)=nE(Xi4)n=3nn=2n\therefore D(\chi^2) = nE(X_i^4)-n = 3n-n=2n

  • χ2\chi^2分布的分位点

    对于给定的正数α,0<α<1\alpha,\quad 0<\alpha<1,称满足条件P{χ2>χα2(n)}=χα2(n)f(y)dy=α\begin{aligned} P\{\chi^2>\chi_\alpha^2(n)\} = \int_{\chi_\alpha^2(n)}^{\infty}f(y)dy = \alpha \end{aligned} 的点 χα2(n)\chi_\alpha^2(n)χ2(n)\chi^2(n)分布的上α\alpha分位点


  • 补充Γ\Gamma函数介绍

    Γ(x)=0tx1etdt.(x>0)\begin{aligned}\Gamma(x) = \int_0^{\infty}t^{x-1}e^{-t}dt.\quad(x>0)\end{aligned}

    • 性质11

      Γ(x+1)=xΓ(x)\begin{aligned}\Gamma(x+1) = x\Gamma(x)\end{aligned}

      • 推论1

      Γ(2)=Γ(1)=1\Gamma(2)=\Gamma(1)=1

      • 推论2

      Γ(12)=π\Gamma(\frac{1}{2}) = \sqrt\pi

      • 推论3

      Γ(n+1)=n!\Gamma(n+1) = n!

    • 性质2

      对于0<x<1Γ(1x)Γ(x)=πsinπx0 <x <1,\quad\Gamma(1-x)\Gamma(x)=\frac{\pi}{sin\pi x}

  • 补充 Γ\Gamma分布介绍

    Γ\Gamma分布是统计学的一种连续概率函数,是概率统计中一种非常重要的分布。指数分布和χ2分布都是伽马分布的特例

    • 假设随机变量XX为等到第α\alpha件事发生所需的等候时间, 密度函数为

      f(x,β,α)=βαΓ(α)xα1eβx,x>0\begin{aligned} f(x,\beta,\alpha) = \frac{\beta^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\beta x},\quad x>0 \end{aligned}

      其中参数α\alpha为形状参数,β\beta 为逆尺度参数

    • E(X)=αβ,D(X)=αβ2E(X) = \frac{\alpha}{\beta},D(X)=\frac{\alpha}{\beta^2}

    • Γ\Gamma分布具有可加性

    • 当形状参数α=1时,伽马分布就是参数为β\beta的指数分布,即XE(β)X\sim E(\beta)

    • α=n2β=12\alpha=\frac{n}{2},β=\frac{1}{2}时,伽马分布就是自由度为nn的卡方分布,即Xχ2(n)X\sim \chi^2(n)

2. tt分布

  • 定义

    XN(0,1),Yχ2(n)X\sim N(0,1),Y\sim \chi^2(n),且X,YX,Y相互独立,则称随机变量t=XY/nt=\frac{X}{\sqrt{Y/n}} 服从自由度为nnt\pmb{t}分布 . 记为tt(n).t\sim t(n).

  • tt分布概率密度

    h(t)=Γ[(n+1)/2]πnΓ(n/2)(1+t2n)(n+1)/2,<t<\begin{aligned} h(t) = \frac{\Gamma[(n+1)/2]}{\sqrt{\pi n}\Gamma(n/2)}\bigg(1+\frac{t^2}{n}\bigg)^{-(n+1)/2},\quad -\infty <t<\infty\end{aligned} 其图像如下

抽样分布之χ2 分布,t分布,F分布

  • 以0为中心,左右对称的单峰分布;

  • nn越小,曲线越低平;nn越大,t分布曲线越接近标准正态分布曲线

  • n30n\geq30时,tt分布近似于标准正态分布

  • tt分布的分位点

    对于给定的正数α,0<α<1\alpha,\quad 0<\alpha<1,称满足条件P{t>tα(n)}=tα(n)h(t)dt=α\begin{aligned} P\{t>t_\alpha(n)\} = \int_{t_\alpha(n)}^{\infty}h(t)dt = \alpha \end{aligned} 的点 tα(n)t_\alpha(n)t(n)t(n)分布的上α\alpha分位点

    • h(t)h(t)图像的对称性可知t1α(n)=tα(n).t_{1-\alpha}(n) = -t_\alpha(n).

3. FF分布

  • Uχ2(n1),Vχ2(n2)U\sim \chi^2(n_1),V \sim \chi^2(n_2),且U,VU,V相互独立,则称随机变量F=U/n1V/n2F=\frac{U/n_1}{V/n_2}服从自由度为(n1,n2)(n_1,n_2)FF分布,记为FF(n1,n2).F\sim F(n_1,n_2).

  • FF分布概率密度

    ψ(y)={Γ[(n1+n2)/2](n1/n2)n1/2y(n1/2)1Γ(n1/2)Γ(n2/2)[1+(n1y/n2)](n1+n2)/2,y>00,else\begin{aligned}\psi(y) = \begin{cases} \frac{\Gamma[(n_1+n_2)/2](n_1/n_2)^{n_1/2}y^{(n_1/2)-1} }{\Gamma(n_1/2)\Gamma(n_2/2)[1+(n_1y/n_2)]^{(n_1+n_2)/2}},\quad &y>0 \\\\ 0, &else \end{cases}\end{aligned}

    其图像为

抽样分布之χ2 分布,t分布,F分布

  • 由定义可知,若FF(n1,n2)F\sim F(n_1,n_2),则1FF(n2,n1)\frac{1}{F}\sim F(n_2,n_1)

  • FF分布的分位点

    对于给定的正数α,0<α<1\alpha,\quad 0<\alpha<1,称满足条件P{F>Fα(n1,n2)}=Fα(n1,n2)ψ(y)dy=α\begin{aligned} P\{F>F_\alpha(n_1,n_2)\} = \int_{F_\alpha(n_1,n_2)}^{\infty}\psi(y)dy = \alpha \end{aligned} 的点 Fα(n1,n2)F_\alpha(n_1,n_2)F(n1,n2)F(n_1,n_2)分布的上α\alpha分位点.

    • 分位点性质

      F1α(n1,n2)=1Fα(n2,n1).F_{1-\alpha}(n_1,n_2)=\frac{1}{F_\alpha(n_2,n_1)}.

      证明如下

      根据FF分布分位点的定义可知

      P{F>F1α(n1,n2)}=1αP{1F<1F1α(n1,n2)}=1αP{1F1F1α(n1,n2)}=1(1α)=α1F1α(n1,n2)=1Fα(n1,n2)F1α(n1,n2)=1Fα(n2,n1)\begin{aligned} P\{F>F_{1-\alpha}(n_1,n_2) \} &= 1-\alpha \\ \therefore P\{\frac{1}{F}<\frac{1}{F_{1-\alpha}(n_1,n_2)}\} &=1-\alpha \\此时有 P\{\frac{1}{F}\geq \frac{1}{F_{1-\alpha}(n_1,n_2)}\} &=1-(1-\alpha)=\alpha \\再次根据分位数定义,有\frac{1}{F_{1-\alpha}(n_1,n_2)}&=\frac{1}{F_{\alpha}(n_1,n_2)} \\ \therefore F_{1-\alpha}(n_1,n_2)&=\frac{1}{F_\alpha(n_2,n_1)}\end{aligned}