简单线性回归
引言
对于线性回归模型,很多人在做数据分析的时候都运用过,用于分析两个变量之间的关系,但可能对其中的原理并没有进行细致的思考,比如r2数值的统计意义?在统计学上,线性模型的有效性如何进行评估?估计y的均值和单次y的95%置信区间CI是怎么做的?等等,这里对这些原理进行解释,但不给出证明。
简单线性回归的例子
一个财险公司想要把主要住宅火灾的损失金额y与火灾点到最近的消防站的距离建立联系,这项研究在一个大城市范围很大的郊区完成,每起火灾的损失金额y与受灾点到最近的消防站的距离x都被记录下来,结果如下表所示:
求解:
1. 运用直线概率模型给出火灾损失和受灾点到最近的消防站距离的关系
3. 当距离为3.5公里时,给出受灾损失的平均值估计的误差范围及单次受灾损失估计的误差范围(95%置信区间)
2)求解出直线模型的参数β0,β1,可以方便地利用统计软件计(Excel,Minitab)算出来,下图为Excel计算出的回归分析参数
3)确定随机误差部分ε的概率分布。如上图Excel输出结果,标准差s=2.3163
a.检验火灾损失与火灾点距离消防站的距离有没有线性关系,即β1=0检验
df=n-2=15-2=13,在p=0.05显著性水平时对应的t0.05=1.771,t=7.23>t0.05,所以拒绝原假设,即β1>0,火灾损失与火灾点距离消防站的距离有线性关系。
b.看决定系数r2=0.923, 说明火灾损失样本的变异性有约92%可以通过火灾点到消防站的距离x的线性模型来解释,说明模型的具有很强的线性关系
5)当x=3.5时,E(y)95%的置信区间以及y的预测值95%的置信区间都在下图所思的Minitab输出结果中。
y的平均值y_bar 95%的置信区间是(26.1901,28.8011),说明在距离为3.5英里时,我们有95%的把握,发生火灾损失的平均值在26190~28801美元之间
预测单次y值的95%的置信区间是(22.324,32.667),说明在距离为3.5英里时,我们有95%的把握,发生火灾损失在22324~32667美元之间
概率模型
确定性模型(deterministic model)
概率模型(probabilistic model)
变量之间存在的关系有一个确定性部门和随机误差部分组成,比如y=15x+随机误差ε
其中y是感兴趣的变量。我们往往假设随机误差的期望值是零,即y的期望
线性模型
线性模型拟合-最小二乘法
几个概念
残差平方和:SSE(Sum of Squares for Error) = RSS (residual sum of squares)
回归平方和:SSR(Sum of Squares for regression) = ESS (explained sum of squares)
总离差平方和:SST(Sum of Squares for total) = TSS(total sum of squares)
最小二乘直线y^=β^0+β^1x的性质:
最小二乘估计公式
模型随机误差项ε的概率分布
4个假设:
1. ε的期望为0。对于一个给定的x,ε的值在无限长的试验序列中均值是0,y的期望E(y)=β0+β1x
其性质可以用下图来说明。实际运用时,这些假设并不需要完全成立,只需部分满足
误差ε的方差σ^2估计
在SSE的计算中,可能需要反复计算SSyy,SSxy,β等值,为避免代入误差,一般要保留6位有效数字。
我们期望大部分(95%)观测值y分别位于他们的最小二乘预测值y^的2s范围内。
评价模型的有效性:对斜率β1对推断
β1的抽样分布
模型的有效性检验:β1检验
模型的有效性检验需要满足的条件
模型β1的(1-α)置信区间
相关系数和决定系数
相关系数(coefficient of correlation)
1. 高相关系数并不一定意味着x和y存在因果关系,仅仅说明两个变量之间可能存在线性趋势
2. 低相关系数并不一定说明x和y之间没有关系,仅仅说明x和y不是很强的线性相关
决定系数(coefficient of determination)--相关系数r方,模型有效性度量
一种测量模型有效性的方法就是测量x对于预测y的贡献,为此,我们计算使用来x提供的信息后,y的预测误差减少了多少
1. 如果假定x对于预测y没有一点贡献,那么y的最佳预测值就是样本评价值y_bar, 预测误差为离差平方和SST(SSyy)
2. 如果假定x对于预测y有贡献,那么y的最佳预测值就是样本评价值y_hat, 预测误差为残差平方和SSE,
如下图的x,y散点图,b为x对y对预测没有贡献,c为x对y对预测有贡献:
那么线性模型对于预测的贡献为SST-SSE=SSR,称回归平方和,也叫ESS(Explain Sum of Squares)可解释的误差平方和
(SSyy-SSE)/SSyy=可解释的样本变异性/总的样本变异性=总的样本变异性被线性关系解释的百分比
利用模型进行估计和预测
1.用模型根据给定的x值估计y的平均值E(y),大量试验y的平均值
2.用模型根据给定的x值估计一个新的y值,预测一个单独试验的结果
估计y的均值和预测y的个值的样本误差
x=xp估计y的均值的100(1-α)%置信区间
x=xp预测y的个别值的100(1-α)%置信区间
可以看出,预测y的个别值的误差范围比估计y的平均值的误差范围大,这是因为预测y的个别值的误差可以看作预测y的均值E(y)的误差加上预测y的随机误差,误差在x_bar的时候最小。