对假设检验的理解
假设检验
官方定义为根据一定的假设条件由样本推断总体的一种方法。
要解决的矛盾:例如需要测量一大批灯泡的合格率,我们不可能把所有的灯泡都拿出来检测其各自耐受性。
所以我们通过随机抽样的方法从总体中抽取一部分的样本,通过对样本各个参数的估计,推断总体的参数,从而达到统计推断的目的。
为了使这个推断更加地科学合理,我们需要有一定的限制条件。
依据原理———小概率事件不可能发生定律
一个事件如果发生的概率很小的话,那么它在一次试验(抽样)中是几乎不可能发生的。
例如:抛硬币十次,十次硬币全部正面朝上,这个事件发生的概率为(0.5)的十次方≈0.0009765。
原假设:这个硬币是没有问题的。
我们通常规定,小于0.05就是小概率事件。英国著名的统计学家Ronald Fisher把1/20作为小概率标准,也就是0.05,从此0.05或者比0.05小就叫做小概率事件。Fisher没有任何高深的理由解释他为什么选择0.05,只是说他忽然想起来的。
那么0.0009765<0.05,这样一个小概率事件发生了。就可以反证我们的原假设“这个硬币是没有问题的”是错误的。
因此我们在进行统计推断的时候,要有原假设,要计算样本的发生概率,从而推断假设的正确与否。这是一般步骤。
原假设
在统计推断时,一般将不易被否定的假设定为原假设。
就像上面的例子,如果将硬币有问题作为原假设,那么正反面出现的概率该如何判定呢?
P值
就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。
然后根据小概率事件在一次试验中不可能发生的原理,将样本观察结果出现的概率与0.05进行比较,判断是否拒绝原假设。若P值小于0.05,则拒绝原假设。反之,则接受。
中心极限定理:
(1)不管总体呈现什么分布,任何样本的平均值围绕在总体的平均值附近呈正态分布。
(2)样本平均值约等于总体平均值。
因此利用中心极限定理:
(1)在没有办法得到总体全部数据的情况下,我们可以用样本来估计总体
(2)根据总体的平均值和标准差,判断某个样本是否属于总体
横坐标代表样本的平均值,纵坐标代表频数。实质上这张图表示:取样n次,每次抽样结果算出的平均值与总体平均值之间的关系。
估算平均值
任何一个样本的平均值会约等于总体的平均值。大部分会围绕总体的平均值集中分布,只有少数离散的点。
已知:一个数据集的标准差是数值与平均值的偏离程度。
当我们从总体中抽取部分样本时,样本的数量远远小于总体量,就可能回避掉一些较为离散的点,分布更加集中。因此样本的标准差应该略大于总体的标准差。
为了表示这种关系。
样本的标准差的计算为:
总体的标准差的计算为:
PS:
区分:
当我们想要了解一个数据集的波动大小时,我们用总体标准差公式进行计算;当我们把这个数据集当做样本,想要估计总体的标准差时,我们用样本的标准差公式进行计算。
标准误差:也是标准差,只不过是以抽取的很多个样本的平均值为新的数据集,对其求的标准差。表示样本平均值的波动大小。
也就有了下面一张图:↓↓↓↓↓↓↓
根据正态分布的特点:
)有68%的样本平均值会在总体平均值一个标准误差的范围之内
数值范围(总体平均值-1个标准误差,总体平均值+1个标准误差)
2)有95%的样本平均值会在总体平均值的两个标准误差的范围之内
(总体平均值-2个标准误差,总体平均值+2个标准误差)
3)有99.7%的样本平均值会在总体平均值3个标准误差的范围之内。
(总体平均值-3个标准误差,总体平均值+3个标准误差)
由此,就出现置信区间的概念。
置信区间
简言之就是误差范围。真实值只能有一个,但这个值是多少我们不知道,我们找到一个范围,真实值一定出现在这个范围中。我们需要对这个范围进行修饰,使其更加接近真实值。
怎样找到置信区间?
比如我们需要研究这样一个问题:接触铅是否对儿童智力有影响。我们从接触铅的儿童的总体中抽取一定数量的样本,对这些儿童进行智力测试。测得这个样本儿童的平均智力水平是85,另一个样本中测得的儿童的平均智力水平是93,我们怎样解释这两者的差异?哪个是合理的?还是都在一定的误差范围内?
因为我们无法知道总体的均值,所以我们需要一个误差范围来评测估计的准确程度。
由上面介绍的内容:有95%的样本平均值会在总体平均值的两个标准误差的范围之内。
如果我们希望置信水平为95%,就是希望我们抽样100次,有95个样本的置信区间都包含了总体的均值。
我们的置信水平为95%的置信区间为:(总体平均值-2个标准误差,总体平均值+2个标准误差)
但是这里还是有个问题,如果按照以上定义的话,99%的置信区间不是更好吗?
不行。
第一类错误和第二类错误
第一类错误:去真(这个误差范围,将符合条件的值去除)。
第二类错误:取伪(这个误差范围,将不符合条件的值添入)。
通常用一对希腊字母⍺和β来代表犯第一类和第二类错误的概率。
能够让两种错误都少犯些么?!
不能!在样本给定的情况下⍺和β中一个减小必然会导致另一个增大,这不是偶然的,而是一般性 ,就是说我们不能找到一个同时是⍺和β都小的检验。
既然我们不能同时控制⍺和β,只能采取折中的办法,通常的做法是仅限制犯第一类错误的概率,这就是费希尔的显著性检验。但是也不能让⍺太小,过小则会导致β过大,适当控制⍺来制约β。最常的选择是⍺=0.05。
即得出结论,如果我们计算样本得出的概率落到该置信区间上,则接受原假设,否则,拒绝原假设。