阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归

1. 回归分析概述

  1. 变量之间的非严格函数关系
    阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归

1.1 回归的定义

阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归

1.2 线性与非线性

阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归

1.3 回归模型的一般形式

阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
在建模时需要考虑扰动项,而在实际预测时,一般不考虑。

1.4 线性回归的几个基本假设

阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归


1.5 建立回归模型的流程

  1. 需求分析明确变量
    阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
  2. 数据收集加工
    阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
    面积和学校等缺失信息可能会引起偏差。
    阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
  3. 确定回归模型
    阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
    阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
    取对数绘图得:
    阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
  4. 模型参数估计
    阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
    此处以最小二乘法为例分析,其他的方法会在后续的课程中介绍。如图所示,计算所有数据点的真实值(红点)与预测值(蓝线)之间的差取平方,再求和,使得误差的平方和最小,寻找数据的最佳函数匹配,即为最小二乘法。
  5. 模型检验优化
    阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
  • 回归方程的显著性检验:即判断方程本身是否有意义。比如,全为随机因素造成的,则没有意义,需要重新建模。
  • 回归系数的显著性检验:即检验系数对应的自变量最最终的预测结果有没有影响,这个影响是否为随机因素造成的(比如收集样本时造成的误差)。如果是是随机因素造成的,并且对结果影响不显著,则可以去掉相应的变量,重新建模。
  • 拟合优度检验:满不满足方差最小,能否拟合数据点。
  • 异方差检验:即判断方差是否有规律的变化。如果有规律变化,则需要将其从模型中去除,重新建模;如果无规律变化,则为期望的结果。(比如满足不相关,零均值,同方差,正态分布等)
  • 多重共线性检验:变量之间是否有线性关系,比如x1=2x2x_1=2x_2,则需要将其中一个变量从模型中去除,重新建模。
  1. 模型部署应用
    阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归

1.6 回归模型的特点

注意奥卡姆剃刀原理–“如无必要,勿增实体”,建立回归模型并非越复杂效果越好,要根据业务需求进行设计,同时要注意检查是否符合回归模型的基本假设,否则,可能导致模型表现不好。
阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归

总结

  1. 课程纲要
    阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
  2. 学习目标
    阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
    前提假设条件非常重要,不符合条件可能导致模型效果不好。

如何选择变量建模是需要考虑的重要问题。

  1. 思考与练习
    阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归

2.一元线性回归

2.1 一元线性回归模型

阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
因为随机误差 ϵ\epsilon 无法度量,所以认为可以用理论回归模型的期望来表示一元线性回归方程。

回归方程从平均意义上表达了变量yyxx 的统计规律性。比如拿尺子测量纸袋的长度,每次测量纸袋可能会引入误差,多次测量长度同一个纸袋的长度,最后取平均即,可从平均意义上表达两变量之间的统计规律。
阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归

2.2 参数估计:最小二乘估计(LSE)

离差平方和:即离开正确值(实际值)的差异。
阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
求偏导使用链式法则,先不看求和符号σ\sigma,然后,将括号中的多项式看成一个整体求导,求完之后,再对多项式中的β0^\hat{\beta_0}求导,可得两个方程。对方程组联立求解推出参数β0^\hat{\beta_0}β1^\hat{\beta_1}的表达式。
阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
这个地方可能会有疑惑,查看这篇博客得知,应用了求和的性质,下面是证明过程:
阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
看个例子:
阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归

2.3 参数估计:最大似然估计(MLE)

如果该部分的相关知识之前没有学习过,关于推导过程可以暂时跳过,因为需要先修的概率论与数理统计知识。跳过本部分,不影响本课程以后的学习。
阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归

2.4 有偏估计与无偏估计

无偏估计,比如等公交车,到站时间为16:00,一系列的预测为15:58,15:59,16:01,16:02…,求平均后大约等于16:00,与真实值的偏差为0,这种情况就是无偏估计。对模型选择来说,只看偏差无法评估模型的波动性,例如预测为14:00,18:00,15:00:,17:00,偏差为0,但波动范围太大,所以还要关注方差。

阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归

2.5 参数估计的性质

回归系数 hatβ1hat{\beta}_1 和回归常数 hatβ0hat{\beta}_0的波动和什么相关?

  1. 样本数越多越好;
  2. 自变量取值范围的跨度越大越好
  3. 本身的随机误差,方差越小越好。

阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归


2.6 回归模型的显著性检验

阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
接收备择假设H1,即认为存在线性关系。

2.7 回归方程是否显著:F检验

阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
经过F检验,说明假设是有意义的,可以认为有线性关系。

2.8 相关系数显著性检验:t检验

阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归

2.9 决定系数

阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
Anscombe’s Quartet
阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
由上可知,及时通过了一些检验也可能存在不理想的结果。

2.10 残差分析

2.10.1 残差

阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归

2.10.2 残差图

阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归

2.10.3 残差的性质

阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归

2.10.4 残差改进

阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归

2.11 模型应用

  1. 预测
    阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
  2. 新值的区间预测
    阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
  3. 新值的均值区间预测
    阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
  4. 控制
    阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
  5. 预测与控制的例子
    阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归

总结

  1. 课程纲要
    阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归

  2. 学习目标
    阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归

  3. 思考与练习
    阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归


3. 多元线性回归

3.1 多元线性回归模型

阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
由上式可得矩阵形式:y=Xβ+ϵy = X \beta + \epsilon

3.2 参数估计:最小二乘估计

阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归

3.3 参数估计:最大似然估计

阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归

3.4 回归方程是否显著:F检验

阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归

3.5 回归系数是否显著:t检验

阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归

3.6 自变量的标准化

阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归

3.7 简单相关系数

最常用的为皮尔逊相关系数。
阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归

3.8 负相关系数与偏相关系数

阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归

多元线性回归案例:汽车油耗分析

阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
数据集:
阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归

  1. 建模思路:
    阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
  2. 建模
    阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
  3. 模型评估
    阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
  4. 模型检验:回归方程显著性
    阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
  5. 模型检验:回归系数显著性
    阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
    阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归

总结

  1. 课程纲要
    阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
  2. 学习目标
    阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
  3. 思考与练习
    阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归

课程链接:https://edu.aliyun.com/roadmap/ai?spm=5176.13944111.1409070.1.61cc28fcAV0KvR