《R统计建模与R软件》第5章知识点整理

2018/10/23

假设检验的基本概念

重要的参数检验

若干重要的非参数检验

5.1假设检验的基本概念

引入:工厂中生产一批灯泡,我们需要检验工厂生产这批灯泡的合格率。我们不可能将总体中的所有灯泡都检查一遍,我们需要从中抽取一部分样本,根据样本的数据特征,然后去估计总体分布情况。-----参数估计

          我们根据参数估计得到一个参数,如次品率,那么我们现在需要知道这个估计值准确与否。假如我们的估计值满足,那么在这种条件下,从总体中抽取一部分样本,我们检查这部分样本中的出现次品的概率(P值)大概是多少。如果这个概率极低,几乎不可能发生,那么根据小概率事件不可能发生定理,可以得出我们原先的假设是错误的。这个估计值不准确。-----假设检验

5.1.1基本概念

1.设Θ为用于确定总体分布的一个未知参数。其一切可能集合为X。则关于Θ的任意假设可以表示为Θ∈X‘ ,X’是X的真子集。

2.   原假设:   H0:Θ∈X0

  备择假设:   H1:Θ∈X1

3.检验的三种类型【根据具体的问题而定,去分析】

(1)单边检验(一尾检验):H0:Θ≥X0   H1:Θ<X1 

                           H0:Θ≤X0   H1:Θ>X1

(2)双边检验(二尾检验): H0:Θ=X0   H1:Θ≠X1

4.P值

在原假设成立的条件下,在样本中,某事件发生的概率。根据P值可以反过来检验原假设是否合理。

5.显著性水平α

《R统计建模与R软件》第5章知识点整理

α的常用取值是0.1 ,0.01, 0.05

6.上式中,W就是拒绝域,即如果样本(我们构造的统计量)落入到拒绝域中,我们就有理由拒绝原假设。

7.置信区间:置信区间与拒绝域是一对相反的概念,统计量落入到置信区间中,我们就承认原假设是合理的。置信区间的大小和置信水平的选取有关。

8.假设检验的两类错误:

(1)去真,我们通过控制显著水平α来控制犯第一类错误。

(2)存伪

通常而言,在给定的样本容量的情况下,如果减少犯第一类错误,就会增加犯第二类错误的可能性。反之,同理。但我们更不愿意犯第一种错误,当α=0.05时,统计检验功效较好。

9.假设检验的一般步骤

(1)根据问题需要,提出双边或单边假设。选择原假设的原则是:事先有一定的信任度,或者处于某种考虑需要对它加以保护。

(2)选定显著性水平α

(3)构造统计量,计算P值或者拒绝域

(4)根据(3)结果,判断原假设是否成立

5.2重要的参数(均值、方差)检验

5.2.1正态总体均值的检验情况

使用t.test()

《R统计建模与R软件》第5章知识点整理

x,y是由数据构成的向量(只提供X,则作单个正态总体的均值检验;否则是两个总体的均值检验)

Alternative表示备择假设“two.sided”表示双边检验(H1:μ≠μ0)

                      “less”表示单边检验(H1:μ<μ0)

                      “greater”表示单边检验(H1:μ>μ0)

Mu表示原假设μ0

Conf.level 表示置信水平 即1-α 通常为0.95。

1.单个总体的情况

检验:单个正态总体的均值是否“=”、“>”、“<” mu?

例如:t.test(X,alternative="two.sided",mu=225)

2.两个总体的情况

检验:两个正态总体的均值之间的关系。

例如:t.test(X,Y,alternative="two.sided",var.equal=TRUE)

var.equal=TRUE 两个正态总体的方差相同。

var.equal=FALSE (默认)两个正态总体的方差不同。

3.成对数据的t检验

适用条件:数据成对出现,成对t检验要优于两个总体均值的检验。计算的P值更小,判断更加可靠。

检验:两个成对的正态总体的均值之间的关系。

例如:t.test(X-Y,alternative="less")

          t.test(X,Y,alternative="less",paired=TRUE)

5.2.2正态总体方差的假设检验

1.单个总体的方差情况

(一般应用的范围不是很大,此处略)

2.两个总体的方差齐次性检验

使用var.test()函数

《R统计建模与R软件》第5章知识点整理

x,y是两个样本数据构成的向量

ratio是方差比的原假设,默认值为1

alternative是备择假设,alternative=“two.sided”表示双边检验(两样本方差之比不等于ratio)

检验:两个正态分布总体的方差之间的关系。

例如:var.test(X,Y)

5.2.3二项分布总体的假设检验

首先判断该样本的分布是否符合二项分布,只有这样才适用。二项分布也是比较常用的非正态分布。

《R统计建模与R软件》第5章知识点整理

《R统计建模与R软件》第5章知识点整理

《R统计建模与R软件》第5章知识点整理

p-value远远大于0.05,接受原假设。即:使用种衣剂之后的发芽率大于常规条件下的平均发芽率。

5.3若干重要的非参数检验

非参数方法:不假定总体的具体形式,尽量从数据或者样本本身获取需要的信息的统计方法。

5.3.1Pearson拟合优度卡方检验

检验:观测数据是否服从某种分布。

《R统计建模与R软件》第5章知识点整理

X是由观测数据构成的向量或矩阵,y是数据向量(当X为矩阵时,y无效)

correct是逻辑变量,表明是否用于连续修正。TRUE表示修正,FALSE表示不用修正。

p是原假设落在小区间理论概率,默认值表示均匀分布。

rescale.p是逻辑变量。选择FALSE(默认)时,要求输入的P满足概率之和为1,选择TRUE时,并不要求这一点。

simulate.p.value 是逻辑变量(默认为FALSE),当为TRUE时,将用仿真的方法计算P值,此时,B表示仿真的次数。

Pearson拟合优度卡方检验的一般步骤

(1)输入数据

(2)将数据分成若干组,要求每组的频数(数据落在该区间的个数)不小于5

(3)根据题目,构造理论分布,求在我们划分的区间范围内,理论概率是多少

(4)作检验 chisq.test(A,p=p)

《R统计建模与R软件》第5章知识点整理

     《R统计建模与R软件》第5章知识点整理

 《R统计建模与R软件》第5章知识点整理

chisq.test(各区间内实际的频数分布,理想计算所得概率)

ppois(统计量【每小时发生的次数】,λ【均值】)

rep(向量/因子,对应重复的次数)

X<-0:6  Y<-c(7,10,12,8,3,2,0)

q<-ppois(X,mean(rep(X,Y)))

这个概率不是我们想要的,我们希望得到的是每个小区间的理想概率

S<-length(q)

p[1]<-q[1]   p[S]<-1-q[S-1]

for(i in 2:S-1)

p[i]<-q[i]-q[i-1]

这样我们就得到了在每个小区间的理想概率

但是,还是不行,注意到了没有,卡方分布的试用条件是频数分布值不能小于5,我们这里有些值不符合条件,我们需要调整频数分布。

现在我们的频数调整为A <-c(7,10,12,8,5)即合并后三项

那么对应频数事件发生的概率也发生了调整

D<-length(A)