【统计学学习笔记】第六章 参数估计(Parameter estimation)

第六章 参数估计(Parameter estimation)

样本估计整体:

在统计学中,由于大多数情况下难以获得总体的情况,所以人们通常选择通过样本去估计总体(主要是通过样本的统计量估计总体的统计量)。

参数估计:通常为**已知样本分布(通常为正态分布)**的情况下

由于知道每个样本的具体的值,故能知道样本的所有的数值特征
可以利用样本的参数(主要是xˉ\bar{x}s2s^{2})对总体对应的参数(μ\muσ2\sigma^{2})进行估计。

参数估计方法:

参数估计有两种方法分别是:点估计和区间估计

点估计(Point estimate for a parameter):又包括矩估计最大似然估计

点估计:

矩估计

矩估计直接用样本的统计量代替相应总体的统计量较为直白、粗暴,胜在简单:

利用如下公式直接对参数进行估计:
其中,AkA_{k}xxkk阶原点矩。
Ak=1ni=1nxik A_{k} = \dfrac{1}{n}\sum_{i=1}^{n}x_{i}^{k}

  1. 期望估计(一阶原点矩)
    A1=E(x)=xˉ A_{1} = E(x) = \bar{x}

  2. 方差估计(二阶原点距)
    A2=E(x2)=D(x)+[E(x)]2 A_{2} = E(x^{2}) = D(x) + \left[E(x)\right]^{2}

最大似然估计

最大似然估计认为:出现所得到的观测值的原因,是因为其出现概率最大,具体计算操作此处暂不涉及。

评价标准:如果判断一个估计量是好是坏?

判断一个估计量的好坏:首先要以不存在系统性偏差为前提(期望相同);在这个前提下误差越小越好(方差更下);同时样本数越多,估计的越准(依概率收敛于被估计参数)。

  1. 无偏性:估计量的数学期望等于被估计参数。【期望相同】
  2. 有效性:均为无偏时,方差小的有效性更强。【方差更小】
  3. 一致性:随着样本量的增大,估计值接近被估计参数。【收敛于被估计参数】

区间估计:

区间估计认为,小概率事件不会在一次实验中发生,故可以利用分位数确定参数所在区间范围。

考虑到样本参数直接等于总体参数的可能性接近于0,区间估计对齐进行优化:增加可能存在的误差区间【这个误差的大小由置信水平$1-\alpha 决定(\alpha$可以当做犯错误的概率)】

  • 若要求犯错的概率越低,那么误差的水平将会越大。
  • 若要求误差的水平越小,那么犯错的概率将会越高。

这是建立在已知信息(即样本的数量)不变的情况下,如果增大信息量(即增加样本量)那么可以同时减少误差和犯错概率!

林德伯格中心极限定理:保证正态总体前提

抛开数学公式的解释就是:当样本量足够大的时候,样本的分布将可以近似为正态分布,而如果已知是正态分布,那么一切都变得好办了起来。

【统计学学习笔记】第六章 参数估计(Parameter estimation)

注:图片来自知乎,作者慧航,如有侵权,请联系删除。

由此中心极限定理,可以将很多未知分布的问题转化为正态分布的问题,使得问题变得可以研究。因此接下来所讨论的问题均在已知正态总体的情况下进行讨论。

单个总体:

估计均值:

如果需要对整体均值μ\mu)进行估计,按照整体方差σ2\sigma^{2})已知或未知分成两种不同的情况。分别采用zz(也可是说uu,下文统一用zz)统计量或者tt统计量。

待估参数 其他参数(σ\sigma 统计量 置信区间
$\mu $ 未知 t=xˉμs/nt(n1)t=\dfrac{\bar{x}-\mu}{s/\sqrt{n}}\sim t\left(n-1\right) [xˉ±tα/2sn]\left[\bar{x}\pm t_{\alpha/2}\dfrac{s}{\sqrt{n}}\right]
$\mu $ 已知 z=xˉμσ/nN(0,1)z=\dfrac{\bar{x}-\mu}{\sigma/\sqrt{n}}\sim N\left(0,1\right) [xˉ±zα/2σn]\left[\bar{x}\pm z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}}\right]

注:在大样本(统计学中认为n30n\geq 30的,可以称之为大样本)的情况下,即使总体方差未知也可以使用zz统计量进行估计。(从操作难度上来看,选择zz或者tt作为统计量是一样的)

  1. SPSS中只有t检验
  2. zztt统计量的主要区别在于tt统计量厚尾
估计方差:

如果需要对整体方差σ2\sigma^{2})进行估计,按照整体均值μ\mu )已知或未知分成两种不同的情况,由于已知均值未知方差情况过于少见(以至于大多数教材都未列出),且二者差异只在*度不同。此处只对μ\mu未知的情况进行研究讨论。

待估参数 其他参数($\mu $) 统计量 置信区间
σ\sigma 未知 χ2=(n1)S2σ2χ2(n1)\chi^{2}=\dfrac{(n-1)S^{2}}{\sigma^{2}}\sim \chi^{2}\left(n-1\right) [(n1)S2χα/22(n1),(n1)S2χ1α/22(n1)]\left[\dfrac{(n-1)S^{2}}{\chi^{2}_{\alpha/2}(n-1)},\dfrac{(n-1)S^{2}}{\chi^{2}_{1-\alpha/2}(n-1)}\right]

两个总体:

两个总体的估计,主要有估计均值之差估计方差之比两种情况,基本思路是将两总体转化为单总体再进行操作。所以具体的操作步骤和单总体操作基本类似,只是由于总体变成了两个,新增了一个分类维度,叫做“均值是否相同”。

分类:
  • 独立样本:两个样本是从两个相互独立的总体中抽取得到的。

  • 匹配样本:一个样本的数据与另一个样本中的数据相互对应。

    如一组学生的语文成绩和数学成绩,一个学生对应两个成绩,且每个语文成绩都有与齐相互对应的数学成绩。

独立样本估计均值之差:
  1. 方差已知的情况下,无论样本大小,对参数进行估计,均采用zz统计量。
统计量 置信区间
z=(x1x2)(μ1μ2)σ12n1+σ22n2{z}=\dfrac{\left(\overline{{x}}_{1}-\overline{{x}}_{2}\right)-\left(\mu_{1}-\mu_{2}\right)}{\sqrt{\dfrac{\sigma_{1}^{2}}{n_{1}}+\dfrac{\sigma_{2}^{2}}{n_{2}}}} [(x1x2)±zα/2σ12n1+σ22n2]\left[\left(\overline{{x}}_{1}-\overline{{x}}_{2}\right) \pm {z}_{\alpha / 2} \sqrt{\dfrac{\sigma_{1}^{2}}{{n}_{1}}+\dfrac{\sigma_{2}^{2}}{{n}_{2}}}\right]
  1. 方差未知的情况下,需要对样本的大小进行讨论,采用不同的方法
  • 大样本情况下的均值之差估计,不需要考虑总体方差是否相同
统计量 置信区间
z=(x1x2)(μ1μ2)s12n1+s22n2{z}=\dfrac{\left(\overline{{x}}_{1}-\overline{{x}}_{2}\right)-\left(\mu_{1}-\mu_{2}\right)}{\sqrt{\dfrac{s_{1}^{2}}{n_{1}}+\dfrac{s_{2}^{2}}{n_{2}}}} [(x1x2)±zα/2s12n1+s22n2]\left[\left(\overline{{x}}_{1}-\overline{{x}}_{2}\right) \pm {z}_{\alpha / 2} \sqrt{\dfrac{s_{1}^{2}}{{n}_{1}}+\dfrac{s_{2}^{2}}{{n}_{2}}}\right]
  • 小样本情况下的均值之差估计:在小样本的情况下,若方差已知。
方差相同 方差不同
统计量 t=(x1x2)(μ1μ2)sp1/n1+1/n2t(n1+n22){t}=\dfrac{\left(\overline{{x}}_{1}-\overline{{x}}_{2}\right)-\left(\mu_{1}-\mu_{2}\right)}{{s}_{{p}} \sqrt{1 / {n}_{1}+1 / {n}_{2}}} \sim {t}\left({n}_{1}+{n}_{2}-2\right) t=x1x2s12n1+s22n2t(v){t}= \dfrac{\overline{{x}}_{1}-\overline{{x}}_{2}}{\sqrt{\dfrac{{s}_{1}^{2}}{{n}_{1}}+\dfrac{{s}_{2}^{2}}{{n}_{2}}}}\sim t\left(v\right)
置信区间 [(xˉ1xˉ2)±tα/2(n1+n22)sp2(1/n1+1/n2)]\left[\left(\bar{x}_{1}-\bar{x}_{2}\right) \pm t_{\alpha / 2}\left(n_{1}+n_{2}-2\right) \sqrt{s_{p}^{2}\left(1 / n_{1}+1 / n_{2}\right)}\right] [(x1x2)±tα/2(v)s12n1+s22n2]\left[\left(\overline{{x}}_{1}-\overline{{x}}_{2}\right) \pm {t}_{\alpha/2}({v}) \sqrt{\dfrac{{s}_{1}^{2}}{{n}_{1}}+\dfrac{{s}_{2}^{2}}{{n}_{2}}}\right]
参数信息 sp2=(n11)s12+(n21)s22n1+n22s_{p}^{2}=\dfrac{\left(n_{1}-1\right) s_{1}^{2}+\left(n_{2}-1\right) s_{2}^{2}}{n_{1}+n_{2}-2} v=(s12n1+s22n2)2(s12/n1)2n11+(s22/n2)2n21{v}=\dfrac{\left(\dfrac{{s}_{1}^{2}}{{n}_{1}}+\dfrac{{s}_{2}^{2}}{{n}_{2}}\right)^{2}}{\dfrac{\left({s}_{1}^{2} / {n}_{1}\right)^{2}}{{n}_{1}-{1}}+\dfrac{\left({s}_{2}^{2} / {n}_{2}\right)^{2}}{{n}_{2}-{1}}}
匹配样本估计均值之差

使用匹配样本可以排除由于样本本身的差异对结果造成的影响,下边列出方差未知情况下的匹配样本均值之差的参数估计

统计量 置信区间
大样本 z=dˉσd/nN(0,1){z}=\dfrac{\bar{d}}{\sigma_{d}/\sqrt{n}}\sim N\left(0,1\right) [dˉ±zα/2σdn]\left[\bar{d} \pm {z}_{\alpha / 2} \dfrac{\sigma_{d}}{\sqrt{n}}\right]
小样本 z=dˉsd/ntα(n1){z}=\dfrac{\bar{d}}{s_{d}/\sqrt{n}}\sim t_{\alpha}\left(n-1\right) [dˉ±zα/2sdn]\left[\bar{d} \pm {z}_{\alpha / 2} \dfrac{s_{d}}{\sqrt{n}}\right]

其中:

  • dˉ\bar{d}:样本各差值的均值:

d=X1iX2ind d = \dfrac{\sum{X_{1i}-X_{2i}}}{n_{d}}

  • σd\sigma_{d}:总体各差值的标准差,sds_{d}:样本各插值的标准差:

sd=(didˉ)2nd1 s_d = \sqrt{\dfrac{\sum{\left(d_{i}-\bar{d}\right)^{2}}}{n_{d}-1}}

估计方差之比:

估计方差之比,先构造卡方统计量,对方差进行估计;再利用估计的方差做比,构造F统计量,从而求出方差之比的参数估计范围。由于应用较少,在此略去不表。(有时间再填这个坑吧)

思维导图:

【统计学学习笔记】第六章 参数估计(Parameter estimation)