引言

对于线性回归模型，很多人在做数据分析的时候都运用过，用于分析两个变量之间的关系，但可能对其中的原理并没有进行细致的思考，比如r2数值的统计意义？在统计学上，线性模型的有效性如何进行评估？估计y的均值和单次y的95%置信区间CI是怎么做的？等等，这里对这些原理进行解释，但不给出证明。

简单线性回归的例子

一个财险公司想要把主要住宅火灾的损失金额y与火灾点到最近的消防站的距离建立联系，这项研究在一个大城市范围很大的郊区完成，每起火灾的损失金额y与受灾点到最近的消防站的距离x都被记录下来，结果如下表所示：

简单线性回归

求解：

1. 运用直线概率模型给出火灾损失和受灾点到最近的消防站距离的关系

2. 在统计上评判模型的有效性

3. 当距离为3.5公里时，给出受灾损失的平均值估计的误差范围及单次受灾损失估计的误差范围（95%置信区间）

解答：

1）假定受灾损失和距离符合直线模型：y=β0+β1*x+ε

2）求解出直线模型的参数β0，β1，可以方便地利用统计软件计（Excel，Minitab）算出来，下图为Excel计算出的回归分析参数

简单线性回归

可以看出：

简单线性回归

3）确定随机误差部分ε的概率分布。如上图Excel输出结果，标准差s=2.3163

4）检验模型的有效性

a.检验火灾损失与火灾点距离消防站的距离有没有线性关系，即β1=0检验

H0：β1=0

Ha：β1>0

df=n-2=15-2=13，在p=0.05显著性水平时对应的t0.05=1.771，t=7.23>t0.05，所以拒绝原假设，即β1>0，火灾损失与火灾点距离消防站的距离有线性关系。

b.看决定系数r2=0.923, 说明火灾损失样本的变异性有约92%可以通过火灾点到消防站的距离x的线性模型来解释，说明模型的具有很强的线性关系

5）当x=3.5时，E(y)95%的置信区间以及y的预测值95%的置信区间都在下图所思的Minitab输出结果中。

预测值y_hat=27.496

y的平均值y_bar 95%的置信区间是（26.1901,28.8011），说明在距离为3.5英里时，我们有95%的把握，发生火灾损失的平均值在26190～28801美元之间

预测单次y值的95%的置信区间是（22.324,32.667），说明在距离为3.5英里时，我们有95%的把握，发生火灾损失在22324～32667美元之间

简单线性回归

概率模型

确定性模型（deterministic model）

变量之间存在确切的关系，比如y=15x

概率模型（probabilistic model）

变量之间存在的关系有一个确定性部门和随机误差部分组成，比如y=15x+随机误差ε

概率模型的一般形式：

y=确定性部分+随机误差ε

其中y是感兴趣的变量。我们往往假设随机误差的期望值是零，即y的期望

E(y)=确定性部分

简单线性回归

线性模型

线性模型是最简单的概率模型，其要素包括：

简单线性回归

线性模型拟合-最小二乘法

几个概念

残差平方和：SSE(Sum of Squares for Error) = RSS (residual sum of squares)

也称误差平方和，y真实值和y预测值（估计值）之间的误差和

简单线性回归

回归平方和：SSR(Sum of Squares for regression) = ESS (explained sum of squares)

由回归关系可以解释的误差平方和

简单线性回归

总离差平方和：SST(Sum of Squares for total) = TSS(total sum of squares)

SSE+SSR=SST或 RSS+ESS=TSS

简单线性回归

最小二乘直线y^=β^0+β^1x的性质:

1.误差和（SE）为零

2.误差平方和（SSE）比其他任何一条执行模型都小

最小二乘估计公式

简单线性回归

模型随机误差项ε的概率分布

4个假设：

1. ε的期望为0。对于一个给定的x，ε的值在无限长的试验序列中均值是0，y的期望E(y)=β0+β1x

2. 对于所有给定的自变量x，ε的概率分布方差是常数

3. ε的概率分布服从正态分布

4. 任何两个观测值对应的ε都是独立的

其性质可以用下图来说明。实际运用时，这些假设并不需要完全成立，只需部分满足

简单线性回归

误差ε的方差σ^2估计

简单线性回归

在SSE的计算中，可能需要反复计算SSyy，SSxy，β等值，为避免代入误差，一般要保留6位有效数字。

我们期望大部分（95%）观测值y分别位于他们的最小二乘预测值y^的2s范围内。

评价模型的有效性：对斜率β1对推断

推断β1是否=0

如果x对y的预测不起作用，则β1=0

β1的抽样分布

简单线性回归

其中S为ε的方差

模型的有效性检验：β1检验

简单线性回归

模型的有效性检验需要满足的条件

简单线下回归，即ε的4个假设

模型β1的（1-α）置信区间

简单线性回归

x=xp估计y的均值的100(1-α)%置信区间

简单线性回归

x=xp预测y的个别值的100(1-α)%置信区间

简单线性回归

可以看出，预测y的个别值的误差范围比估计y的平均值的误差范围大，这是因为预测y的个别值的误差可以看作预测y的均值E(y)的误差加上预测y的随机误差，误差在x_bar的时候最小。

简单线性回归

简单线性回归

引言

简单线性回归的例子

概率模型

确定性模型（deterministic model）

概率模型（probabilistic model）

线性模型

线性模型拟合-最小二乘法

几个概念

最小二乘直线y^=β^0+β^1x的性质:

最小二乘估计公式

模型随机误差项ε的概率分布

4个假设：

误差ε的方差σ^2估计

评价模型的有效性：对斜率β1对推断

β1的抽样分布

模型的有效性检验：β1检验

模型的有效性检验需要满足的条件

模型β1的（1-α）置信区间

相关系数和决定系数

相关系数(coefficient of correlation)

决定系数(coefficient of determination)--相关系数r方，模型有效性度量

利用模型进行估计和预测

估计y的均值和预测y的个值的样本误差

x=xp估计y的均值的100(1-α)%置信区间

x=xp预测y的个别值的100(1-α)%置信区间

简单线性回归

引言

简单线性回归的例子

概率模型

确定性模型（deterministic model）

概率模型（probabilistic model）

线性模型

线性模型拟合-最小二乘法

几个概念

最小二乘直线y^=β^0+β^1x的性质:

最小二乘估计公式

模型随机误差项ε的概率分布

4个假设：

误差ε的方差σ^2估计

评价模型的有效性：对斜率β1对推断

β1的抽样分布

模型的有效性检验：β1检验

模型的有效性检验需要满足的条件

模型β1的（1-α）置信区间

相关系数和决定系数

相关系数(coefficient of correlation)

决定系数(coefficient of determination)--相关系数r方，模型有效性度量

利用模型进行估计和预测

估计y的均值和预测y的个值的样本误差

x=xp估计y的均值的100(1-α)%置信区间

x=xp预测y的个别值的100(1-α)%置信区间

相关推荐