DataWhale 统计学一周训练营 task3
分类:
文章
•
2024-08-06 17:12:52
- 参考
http://www.cnblogs.com/Joeyyoung/p/10212733.html
https://www.jianshu.com/p/2aee23be783d
http://www.cnblogs.com/Joeyyoung/p/10212733.html
https://www.jianshu.com/p/3fd3895928cb
https://blog.****.net/datawhale/article/details/81456144
《商务与经济统计》安德森
- 假设检验
- 假设检验和p值
假设检验是数理统计学中根据一定假设条件由样本推断总体的一种方法。其基本原理是先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出推断。它是以假设为前提的。
假设检验与区间估计都是根据样本信息推断总体分布。两者可以相互装转换唯一的区别是参数知不知道的问题。
P值主要是用来判断不同样本之间的差异是由抽样误差引起的还是总体不同引起的。在零假设条件下得到的概率称为P值。是判断标准也称为拒绝域,若P<,则拒绝零假设,若相反,则接受零假设。计算P值方法为:1 确定样本均值与均值标准差,注意样本均值标准差为,选择样本方差作为总体方差的估计;2 求Z分数(T分数),查Z表(T表);3 确定概率值即P值。
需要注意一下:双侧检验是检验样本平均数和总体平均数有无明显差异,不管差异方向,
- 单侧检验和双侧检验
双侧检验是检验样本平均数和总体平均数有无明显差异,不管差异方向,如:视频中的药对小白鼠是正向作用还是反向作用不管,只管是否有作用;而单侧检验是考虑方向性的,即是正向作用还是反向作用。
- 统计量
- 第一型错误
在假设检验中,接受或者拒绝H0,都有概率犯错误。第一类错误就是原假设为真,而检验的结论却劝你放弃原假设,称为弃真错误。如果原假设不是真,而检验的结论却劝你接受原假设称为取伪错误。
显著性水平:当作为一个等式的原假设为真时,犯第一类错误的概率称为检验的显著性水平,用α表示,一般取0.05 和0.01。显著水平与置信水平和为1.
在假设检验的大多数应用中,虽然对第一类错误的概率进行了控制,但通常并不对发生第二类错误的概率加以控制。因此,如果我们决定接受假设H0,我们并不能确定该决策有多大可信度。由于显著性检验中第二类错误的发生具有不确定性,所以统计学家通常建议我们在叙述中采用“不能拒绝H0”而不采用“接受H0”这种说法。这种情形下,只能得出两种可能的结论:不能拒绝H0或拒绝H0.
- 重要参数检验
- 总体均值的检验(总体服从正态分布,或着样本量足够大≥30)
- σ已知情形
- 单侧检验,统计量z
- p-值法
p-值是一个概率值,它度量样本所提供的证据对原假设的支持程度。p-值越小说明反对原假设的证据越多。用于计算p-值得方法依赖于检验是下侧检验、上侧检验还是双侧检验。
p-值法的拒绝法则:如果p-值≤α,则拒绝H0.
- 临界值法
临界值法要求我们首先确定被称为临界值的检验统计量的值。临界值是使得我们拒绝原假设的检验统计量的最大值。
下侧检验的拒绝法则--临界值法:如果z≤-z_α,则拒绝H0,式中,-z_α为临界值,即标准正态概率分布下侧的面积为α时对应的z值。
- 小结
假设检验的p-值法与临界值法总是得出相同的拒绝结论,p-值法的优点在于,p-值能够告诉我们结果有多么显著(实际显著性水平)。而如果使用临界值发,我们只能得到在规定的显著性水平下结果是否显著。
- 双侧检验
- p-值法
- 临界值法
- 区间估计与假设检验的关系
- σ未知情形
必须利用样本同时估计σ和μ,利用样本均值估计μ,用样本标准差估计μ。
在σ已知清醒下,检验统计量的抽样分布是标准正态分布,然而在σ未知情形下的检验统计量的抽样分布是t分布。由于根据样本对μ和σ同时进行估计,t分布的变异性更强。
- 单侧检验与双侧检验
- 总体比率
基于样本比率与总体比率的假设值之差来进行。假设检验所使用的方法与对总体均值进行假设检验时所使用的方法相似,唯一的不同之处是我们利用样本比率和标准误差来计算检验统计量。然后利用p-值法或者临界值法确定是否拒绝原假设。
- 单侧检验与双侧检验
- 统计量
-