直线回归和相关------(二)直线回归的假设测验和区间估计以及matlab实现
一、直线回归的假设测验
(1)回归关系的假设测验
若X和Y变数总体并不存在直线回归关系,则随机抽取一个样本也可用上节的方法算得一个直线方程。
显然,这样的回归方程是靠不住的。所以对于样本的回归方程,
必须测定其来自无直线回归关系总体的概率大小。当这种概率小于0.05或0.01时,才能冒险确认其所存在的总体关系存在着直线回归关系。这就是回归关系的假设测验,可有t测验或F测验给出。
t测验:若总体不存在直线回归关系,则总体回归系数=0;总体存在直线回归关系,则0。
直线回归的假设测验: 对
回归系数的标准误为:
遵循 v=n-2 的t分布,由t值可知样本回归系数b来自总体=0总体的概率大小。
|t|>,表明在=0总体中因抽样误差而获得现有样本的概率小于。否定原假设,接受备择假设,即认为两变数之间有真实直线回归关系的,或者说是b是显著的。
F测验:当仅以表示y资料时(不考虑x的影响),y变数具有平方和和*度v=n-1.
当以表示y的资料时(考虑x的影响),则可以分解成两个部分:
在同一概率值下,一尾的F值正好是两尾t的平方即 F=:
所以,对直线回归做假设测验,只需选择上述测验方法之一。
(2)两个回归系数比较时的假设测验
若有两个直线回归样本,分别具有样本回归系数
若接受H0,两者共同值为: (b是两个回归系数的加权平均数,不等于(b1+b2)/2。
二、直线回归的区间估计
(1)直线回归的抽样误差
在直线回归总体中抽取若干个样本时,由于,各样本的a,b值都有误差。因此,由给出的点估计的精确性,决定于(离回归均方)和a,b的误差大小。比较科学的方法是考虑到误差的大小和
坐标点的离散程度,给出一个区间估计,即给出对其总体的,、等的置信区间。
(2)回归截距的置信区间
样本回归截距a= ,和b的误差方差分别为: ,
根据误差合成原理,a的标准误为:
和对的置信区间一般在a有专业意义时应用。在表示结果时,写成:
(3)回归系数的置信区间
总体回归系数的95%可靠度的置信区间为:[ , ]
在表示结果时,写成:
(4)条件总体平均数 的置信区间
根据回归模型的定义,每一个X上都有一个Y变数的条件总体,该条件总体的平均数为,其样本估计值为。
由于 ,故的标准误为:
(5)条件总体预测值的置信区间
这是以一定的保证概率估计任一X上Y 单个预测值的存在范围。
线性数学组成为:,单个预测值的估计标准误为:
(6)置信区间和预测区间的图示
由于 和 的算式中包含 项,使 和 的值随x的不同而不同。实践中经常需要由x来推断 或预测Y时,最好将相应的置信区间和预测区间做成图,以便从图上直接读出所需的值。
在作图时,首先可取若干个等距的x值(x取值愈密,作图愈准确),算的与其相应的L1,L2,再算得各x上的L1,L2并标于图上,最后将各个L1,L2分别连接成曲线即可。
所夹区间为包括 在内有95%可靠度的置信区间,的95%置信带。
所夹区间为 95%预测带或预测区间。
和 都是以回归直线为轴而上下对称。