《R统计建模与R软件》第5章知识点整理
2018/10/23
假设检验的基本概念
重要的参数检验
若干重要的非参数检验
5.1假设检验的基本概念
引入:工厂中生产一批灯泡,我们需要检验工厂生产这批灯泡的合格率。我们不可能将总体中的所有灯泡都检查一遍,我们需要从中抽取一部分样本,根据样本的数据特征,然后去估计总体分布情况。-----参数估计
我们根据参数估计得到一个参数,如次品率,那么我们现在需要知道这个估计值准确与否。假如我们的估计值满足,那么在这种条件下,从总体中抽取一部分样本,我们检查这部分样本中的出现次品的概率(P值)大概是多少。如果这个概率极低,几乎不可能发生,那么根据小概率事件不可能发生定理,可以得出我们原先的假设是错误的。这个估计值不准确。-----假设检验
5.1.1基本概念
1.设Θ为用于确定总体分布的一个未知参数。其一切可能集合为X。则关于Θ的任意假设可以表示为Θ∈X‘ ,X’是X的真子集。
2. 原假设: H0:Θ∈X0
备择假设: H1:Θ∈X1
3.检验的三种类型【根据具体的问题而定,去分析】
(1)单边检验(一尾检验):H0:Θ≥X0 H1:Θ<X1 或
H0:Θ≤X0 H1:Θ>X1
(2)双边检验(二尾检验): H0:Θ=X0 H1:Θ≠X1
4.P值
在原假设成立的条件下,在样本中,某事件发生的概率。根据P值可以反过来检验原假设是否合理。
5.显著性水平α
α的常用取值是0.1 ,0.01, 0.05
6.上式中,W就是拒绝域,即如果样本(我们构造的统计量)落入到拒绝域中,我们就有理由拒绝原假设。
7.置信区间:置信区间与拒绝域是一对相反的概念,统计量落入到置信区间中,我们就承认原假设是合理的。置信区间的大小和置信水平的选取有关。
8.假设检验的两类错误:
(1)去真,我们通过控制显著水平α来控制犯第一类错误。
(2)存伪
通常而言,在给定的样本容量的情况下,如果减少犯第一类错误,就会增加犯第二类错误的可能性。反之,同理。但我们更不愿意犯第一种错误,当α=0.05时,统计检验功效较好。
9.假设检验的一般步骤
(1)根据问题需要,提出双边或单边假设。选择原假设的原则是:事先有一定的信任度,或者处于某种考虑需要对它加以保护。
(2)选定显著性水平α
(3)构造统计量,计算P值或者拒绝域
(4)根据(3)结果,判断原假设是否成立
5.2重要的参数(均值、方差)检验
5.2.1正态总体均值的检验情况
使用t.test()
x,y是由数据构成的向量(只提供X,则作单个正态总体的均值检验;否则是两个总体的均值检验)
Alternative表示备择假设“two.sided”表示双边检验(H1:μ≠μ0)
“less”表示单边检验(H1:μ<μ0)
“greater”表示单边检验(H1:μ>μ0)
Mu表示原假设μ0
Conf.level 表示置信水平 即1-α 通常为0.95。
1.单个总体的情况
检验:单个正态总体的均值是否“=”、“>”、“<” mu?
例如:t.test(X,alternative="two.sided",mu=225)
2.两个总体的情况
检验:两个正态总体的均值之间的关系。
例如:t.test(X,Y,alternative="two.sided",var.equal=TRUE)
var.equal=TRUE 两个正态总体的方差相同。
var.equal=FALSE (默认)两个正态总体的方差不同。
3.成对数据的t检验
适用条件:数据成对出现,成对t检验要优于两个总体均值的检验。计算的P值更小,判断更加可靠。
检验:两个成对的正态总体的均值之间的关系。
例如:t.test(X-Y,alternative="less")
t.test(X,Y,alternative="less",paired=TRUE)
5.2.2正态总体方差的假设检验
1.单个总体的方差情况
(一般应用的范围不是很大,此处略)
2.两个总体的方差齐次性检验
使用var.test()函数
x,y是两个样本数据构成的向量
ratio是方差比的原假设,默认值为1
alternative是备择假设,alternative=“two.sided”表示双边检验(两样本方差之比不等于ratio)
检验:两个正态分布总体的方差之间的关系。
例如:var.test(X,Y)
5.2.3二项分布总体的假设检验
首先判断该样本的分布是否符合二项分布,只有这样才适用。二项分布也是比较常用的非正态分布。
p-value远远大于0.05,接受原假设。即:使用种衣剂之后的发芽率大于常规条件下的平均发芽率。
5.3若干重要的非参数检验
非参数方法:不假定总体的具体形式,尽量从数据或者样本本身获取需要的信息的统计方法。
5.3.1Pearson拟合优度卡方检验
检验:观测数据是否服从某种分布。
X是由观测数据构成的向量或矩阵,y是数据向量(当X为矩阵时,y无效)
correct是逻辑变量,表明是否用于连续修正。TRUE表示修正,FALSE表示不用修正。
p是原假设落在小区间的理论概率,默认值表示均匀分布。
rescale.p是逻辑变量。选择FALSE(默认)时,要求输入的P满足概率之和为1,选择TRUE时,并不要求这一点。
simulate.p.value 是逻辑变量(默认为FALSE),当为TRUE时,将用仿真的方法计算P值,此时,B表示仿真的次数。
Pearson拟合优度卡方检验的一般步骤
(1)输入数据
(2)将数据分成若干组,要求每组的频数(数据落在该区间的个数)不小于5
(3)根据题目,构造理论分布,求在我们划分的区间范围内,理论概率是多少
(4)作检验 chisq.test(A,p=p)
chisq.test(各区间内实际的频数分布,理想计算所得概率)
ppois(统计量【每小时发生的次数】,λ【均值】)
rep(向量/因子,对应重复的次数)
X<-0:6 Y<-c(7,10,12,8,3,2,0)
q<-ppois(X,mean(rep(X,Y)))
这个概率不是我们想要的,我们希望得到的是每个小区间的理想概率
S<-length(q)
p[1]<-q[1] p[S]<-1-q[S-1]
for(i in 2:S-1)
p[i]<-q[i]-q[i-1]
这样我们就得到了在每个小区间的理想概率
但是,还是不行,注意到了没有,卡方分布的试用条件是频数分布值不能小于5,我们这里有些值不符合条件,我们需要调整频数分布。
现在我们的频数调整为A <-c(7,10,12,8,5)即合并后三项
那么对应频数事件发生的概率也发生了调整
D<-length(A)