统计学知识梳理（三）假设检验

1、假设检验的步骤：

第1步：确定零假设和备选假设 零假设( $H_{0}$ )：备选假设（ $H_{1}$ ）：

第2步：证据是什么？（计算p值） 在零假设成立的前提下，从总体中随机抽样得到一个样本，并计算这个样本发生的可能性有多大（P值）。

第3步：判断标准是什么？（显著性水平） 假设检验常用的判断标准是5%，在假设检验里叫做“显著水平”，用符号α，

第4步：做出结论 如果，P值 < α 说明小概率事件发生了，则拒绝 $H_{0}$ 。否则接受 $H_{1}$ 。

例题：
统计学知识梳理（三）假设检验
分析：

第1步：确定零假设和备选假设

零假设 $H_{0}$ ：药物无效，即 $\mu=1.25$
备选假设 $H_{1}$ ：药物有效，即 $\mu \neq 1.25$

第2步：计算p值

在假设 $H_{0}$ 正确的前提下，计算出样本均值 $\overline{x}=1.05$ 、标准差 S=0.5 这一结果的概率P。

抽样分布如图：
统计学知识梳理（三）假设检验
计算出抽样分布的均值 $\mu_{\mathrm{x}}=\mu=1.2 \mathrm{s}$ ,

标准差 $\sigma_{\overline{x}}=\frac{\sigma}{\sqrt{100}} \approx \frac{S}{\sqrt{100}}=\frac{0.5}{10}=0.05$

计算1.05秒离抽样分布均值有多少个标准差远，也就是 $z$ 值：

$z=\frac{1.2-1.05}{0.05}=3$
根据经验法则，3个标准差内的概率是99.7%，求出P值为1-99.7 %=0.3 %，P=0.3%。

第3步：显著性水平

显著性水平取5%。

第4步：做出结论

如果 $H_{0}$ 成立，只有不到0.3%的几率得到抽样结果，P值小于 $\alpha$ ，因此结果更倾向于拒绝 $H_{0}$ 假设，支持 $H_{1}$ 假设，即药物有效果。

2、单侧检验和双侧检验

在这个例题中，我们只是检验药物是否存在效果，不管是正效果还是反效果都认为是有效，这称为双侧检验。
将备选假设 $H_{1}$ 改为用药降低反应时间，就变成了单侧检验。

3、z统计量和t统计量
z值代表离均值有多少个标准差远，公式可以写成：

$z=\frac{\overline{x}-\mu_{\overline{x}}}{\frac{\sigma}{\sqrt{n}}}$

但一般情况下总体标准差 $\sigma$ 通常是未知的，当样本容量n＞30时，可以用样本标准差S作为估计值，这时是符合正态分布的：

$z=\frac{\overline{x}-\mu_{\overline{x}}}{\frac{S}{\sqrt{n}}}$
但如果样本容量n＜30时，就不服从正态分布了，服从t分布：

$t=\frac{\overline{x}-\mu \overline{x}}{\frac{S}{\sqrt{n}}}$

对应的查t值表就可以了。

4、第一类错误

第一类错误：原假设是正确的，却拒绝了原假设。(错杀好人)
第二类错误：原假设是错误的，却没有拒绝原假设。(放走坏人)

5、大样本伯努利占比假设检验

我们要检验一个假设，即超过30%美国家庭拥有互联网接入，显著性水平5%。我们采集了150个家庭作为样本，结果57家拥有接入。
分析：

第1步：确定零假设和备选假设

零假设 $H_{0}$ ：美国家庭网络接入<=30%
备选假设 $H_{1}$ ：美国家庭网络接入>30%

第2步：计算p值

我们要根据零假设得到一个总体中的占比值，在这个假设下，看150户中有57户接入网络的概率是多少？如果该概率小于5%，我们就拒绝零假设，承认备择假设。
样本均值：57/150=0.38
样本标准差：S=0.38*0.62

假设 $P_{H_{0}}=0.3$ ，
零假设下，总体均值为0.3，总体标准差： $\sigma_{H_{0}}=\sqrt{0.3 \times 0.7}=\sqrt{0.21}$

样本抽样分布：多次二项分布抽样 np>5时(p为小于1的数，np大于5 表示n的值比较大，表示这是一个大样本)，该样本抽样分布满足正态分布。零假设下，np= 150*0.3 >5 ,我们认为零假设下的抽样分布满足正太分布。
所以抽样分布均值 $\mu$ =0.3，

抽样分布标准差 $\sigma_{p}=\frac{\sigma_{H o}}{\sqrt{150}}=0.037$

求样本均值与抽样分布均值之间的标准差数，即z值：
$z=\frac{0.38-0.3}{0.037}=2.14$
查询Z分布表 5%的概率为1.65个标准差。而2.41 > 1.65 即零假设下，样本均值距总体均值的距离大于5%的概率下的标准差距离，也就是样本均值落入小于5%概率下的均值分布，拒绝零假设。

6、随机变量之差的方差

结论一：随机变量之差的均值等于均值之差： $\mu_{X-Y}=\mu_{X}-\mu_{Y}$

结论二：两独立随机变量之差的方差等于两个随机变量分别的方差之和： $\sigma_{X-Y}^{2}=\sigma_{X}^{2}+b_{Y}^{2}$

7、总体占比的比较

选举中，我想知道男人和女人都给某些候选人的占比是否有显著不同？
男性中投给某候选人的占比为p1，不投给这个候选人的占比为1-p1. 投给此候选人为1，不投给此候选人为0.
女性中投给这个候选人的占比为p2，不投给这个候选人的占比为1-p2. 投给此候选人为1，不投给此候选人为0.

这两个都是伯努利分布。

男：均值=p1,方差=p1*(1-p1)

女：均值=p2,方差=p2*(1-p2)

所求：p1 和 p2 是否有显著差异？也就是 p1 - p2的分布。

我们希望求出一个95%的置信区间，为此我们调查了1000个男性和 1000个女性投票者。

样本男：642投了此候选人，记为1 358未投此候选人，记为0. p1 = 0.642 方差=0.6420.358
样本女：591投了此候选人，记为1 409未投此候选人，记为0. p2 = 0.591 方差=0.5910.409

由于样本容量大，所以随机抽样分布接近正态分布：

随机抽样均值分布男总体均值=样本均值=0.642 总体方差=方差=0.6420.358/1000（大容量样本下我们用样本方差估计总体方差）
随机抽样均值分布女总体均值=样本均值=0.591 总体方差=方差=0.5910.409/1000（大容量样本下我们用样本方差估计总体方差）

随机抽样均值差分布分布均值=0.642-0.591=0.051 方差=0.6420.358/1000 + 0.5910.409/1000=0.022X0.022
差值分布95%的置信区间查表可知 z=1.96 ，d=1.96X0.022=0.043

所以有95%机率均总体占比之差落在样本占比之差左右0.043范围内即：p1-p2的95%置信区间是[0.008,0.094]

假设检验：
零假设：投票男女占比无差别即总体差值 p1-p2 = 0
备择假设：投票男女占比有差别即总体差值 p1-p2 != 0
使用显著性水平5%进行检验

零假设下：总体差值分布的均值为0，样本差值=0.051，求出0.051距离0有几个标准差？

查Z表可知：正太分布下，2.5%的z值=1.96。如果0.051距离0的标准差数>1.96,说明样本概率小于5%,这样就可以拒绝零假设。

零假设下：p1=p2，方差有更好的估计值，即方差=2p(1-p)/1000 p=(642+591)/2000 则标准差=0.0217
0.051/0.0217=2.35

2.35>1.96,所以我们拒绝零假设。

统计学知识梳理（三）假设检验

相关推荐