2018/10/23

假设检验的基本概念

重要的参数检验

若干重要的非参数检验

5.1假设检验的基本概念

引入：工厂中生产一批灯泡，我们需要检验工厂生产这批灯泡的合格率。我们不可能将总体中的所有灯泡都检查一遍，我们需要从中抽取一部分样本，根据样本的数据特征，然后去估计总体分布情况。-----参数估计

我们根据参数估计得到一个参数，如次品率，那么我们现在需要知道这个估计值准确与否。假如我们的估计值满足，那么在这种条件下，从总体中抽取一部分样本，我们检查这部分样本中的出现次品的概率（P值）大概是多少。如果这个概率极低，几乎不可能发生，那么根据小概率事件不可能发生定理，可以得出我们原先的假设是错误的。这个估计值不准确。-----假设检验

5.1.1基本概念

1.设Θ为用于确定总体分布的一个未知参数。其一切可能集合为X。则关于Θ的任意假设可以表示为Θ∈X‘ ，X’是X的真子集。

2. 原假设： H0：Θ∈X0

备择假设： H1：Θ∈X1

3.检验的三种类型【根据具体的问题而定，去分析】

（1）单边检验（一尾检验）：H0：Θ≥X0 H1：Θ＜X1 或

H0：Θ≤X0 H1：Θ＞X1

（2）双边检验（二尾检验）： H0：Θ=X0 H1：Θ≠X1

4.P值

在原假设成立的条件下，在样本中，某事件发生的概率。根据P值可以反过来检验原假设是否合理。

5.显著性水平α

《R统计建模与R软件》第5章知识点整理

α的常用取值是0.1 ，0.01， 0.05

6.上式中，W就是拒绝域，即如果样本（我们构造的统计量）落入到拒绝域中，我们就有理由拒绝原假设。

7.置信区间：置信区间与拒绝域是一对相反的概念，统计量落入到置信区间中，我们就承认原假设是合理的。置信区间的大小和置信水平的选取有关。

8.假设检验的两类错误：

（1）去真，我们通过控制显著水平α来控制犯第一类错误。

（2）存伪

通常而言，在给定的样本容量的情况下，如果减少犯第一类错误，就会增加犯第二类错误的可能性。反之，同理。但我们更不愿意犯第一种错误，当α=0.05时，统计检验功效较好。

9.假设检验的一般步骤

（1）根据问题需要，提出双边或单边假设。选择原假设的原则是：事先有一定的信任度，或者处于某种考虑需要对它加以保护。

（2）选定显著性水平α

（3）构造统计量，计算P值或者拒绝域

（4）根据（3）结果，判断原假设是否成立

5.2重要的参数（均值、方差）检验

5.2.1正态总体均值的检验情况

使用t.test()

《R统计建模与R软件》第5章知识点整理

x,y是由数据构成的向量（只提供X，则作单个正态总体的均值检验；否则是两个总体的均值检验）

Alternative表示备择假设“two.sided”表示双边检验（H1：μ≠μ0）

“less”表示单边检验（H1：μ<μ0）

“greater”表示单边检验（H1：μ>μ0）

Mu表示原假设μ0

Conf.level 表示置信水平即1-α 通常为0.95。

1.单个总体的情况

检验：单个正态总体的均值是否“＝”、“＞”、“＜” mu？

例如：t.test(X,alternative="two.sided",mu=225)

2.两个总体的情况

检验：两个正态总体的均值之间的关系。

例如：t.test(X,Y，alternative="two.sided",var.equal=TRUE)

var.equal=TRUE 两个正态总体的方差相同。

var.equal=FALSE (默认)两个正态总体的方差不同。

3.成对数据的t检验

适用条件：数据成对出现，成对t检验要优于两个总体均值的检验。计算的P值更小，判断更加可靠。

检验：两个成对的正态总体的均值之间的关系。

例如：t.test(X-Y,alternative="less")

t.test(X,Y,alternative="less",paired=TRUE)

5.2.2正态总体方差的假设检验

1.单个总体的方差情况

（一般应用的范围不是很大，此处略）

2.两个总体的方差齐次性检验

使用var.test()函数

《R统计建模与R软件》第5章知识点整理

x,y是两个样本数据构成的向量

ratio是方差比的原假设，默认值为1

alternative是备择假设，alternative=“two.sided”表示双边检验（两样本方差之比不等于ratio）

检验：两个正态分布总体的方差之间的关系。

例如：var.test(X,Y)

5.2.3二项分布总体的假设检验

首先判断该样本的分布是否符合二项分布，只有这样才适用。二项分布也是比较常用的非正态分布。

《R统计建模与R软件》第5章知识点整理

p-value远远大于0.05，接受原假设。即：使用种衣剂之后的发芽率大于常规条件下的平均发芽率。

5.3若干重要的非参数检验

非参数方法:不假定总体的具体形式，尽量从数据或者样本本身获取需要的信息的统计方法。

5.3.1Pearson拟合优度卡方检验

检验：观测数据是否服从某种分布。

《R统计建模与R软件》第5章知识点整理

X是由观测数据构成的向量或矩阵，y是数据向量（当X为矩阵时，y无效）

correct是逻辑变量，表明是否用于连续修正。TRUE表示修正，FALSE表示不用修正。

p是原假设落在小区间的理论概率，默认值表示均匀分布。

rescale.p是逻辑变量。选择FALSE（默认）时，要求输入的P满足概率之和为1，选择TRUE时，并不要求这一点。

simulate.p.value 是逻辑变量（默认为FALSE），当为TRUE时，将用仿真的方法计算P值，此时，B表示仿真的次数。

Pearson拟合优度卡方检验的一般步骤

（1）输入数据

（2）将数据分成若干组，要求每组的频数（数据落在该区间的个数）不小于5

（3）根据题目，构造理论分布，求在我们划分的区间范围内，理论概率是多少

（4）作检验 chisq.test(A,p=p)

《R统计建模与R软件》第5章知识点整理

chisq.test(各区间内实际的频数分布，理想计算所得概率)

ppois(统计量【每小时发生的次数】，λ【均值】)

rep(向量/因子，对应重复的次数)

X<-0:6 Y<-c(7,10,12,8,3,2,0)

q<-ppois(X,mean(rep(X,Y)))

这个概率不是我们想要的，我们希望得到的是每个小区间的理想概率

S<-length(q)

p[1]<-q[1] p[S]<-1-q[S-1]

for(i in 2:S-1)

p[i]<-q[i]-q[i-1]

这样我们就得到了在每个小区间的理想概率

但是，还是不行，注意到了没有，卡方分布的试用条件是频数分布值不能小于5，我们这里有些值不符合条件，我们需要调整频数分布。

现在我们的频数调整为A <-c（7,10,12,8,5）即合并后三项

那么对应频数事件发生的概率也发生了调整

D<-length(A)

《R统计建模与R软件》第5章知识点整理

5.1假设检验的基本概念

5.1.1基本概念

5.2重要的参数（均值、方差）检验

5.2.1正态总体均值的检验情况

1.单个总体的情况

2.两个总体的情况

3.成对数据的t检验

5.2.2正态总体方差的假设检验

1.单个总体的方差情况

2.两个总体的方差齐次性检验

5.2.3二项分布总体的假设检验

5.3若干重要的非参数检验

5.3.1Pearson拟合优度卡方检验

相关推荐