在上一篇中，我们介绍了机器学习任务的一般步骤。现在我们对具体任务进行讲解

一、模型

给定训练数据集 $D = {x_{i}, y_{i}}_{i = 1}^{N}$ ,其中 $y \in R$ 。回归学习一个从输入 $x$ 到输出 $y$ 的映射 $f$ 。当增加新的数据集时，用学习到的映射 $f$ 对其进行预测 $\hat{y} = f (x)$ 。若是学习到的这个映射 $f$ 是一个线性函数：

　　　　　　　　　　　　　　　　 $\hat{y} = f (x | w) = w^{T} x$

则我们称之为线性回归模型。

1.目标函数

前面我们已经提过，目标函数通常包括两项：损失函数和正则项
机器学习笔记（3）线性回归模型
其中，我们的L2损失就使用到残差平方和（residual sum of squares,RSS):

　　　　　　　　　　　 $R S S = \sum_{i = 1}^{N} (y_{i} - \hat{y_{i}}) = \sum_{i = 1}^{N} (y_{i} - w^{T} x_{i})^{2}$
　　　　　　　　　　　
（1）、最小二乘线性回归（Ordinary Least Square，OLS）：　
　　　　由于线性模型比较简单，所以当 $R (θ) = 0$ 时，目标函数为
　　　　
　　　　　　　　　　　 $J (w) = \sum_{i = 1}^{N} L (y_{i}, \hat{y_{i}}) = \sum_{i = 1}^{N} (y_{i} - \hat{y_{i}}) = \sum_{i = 1}^{N} (y_{i} - w^{T} x_{i})^{2}$ 　

（2）、岭回归（Ridge Regression）：
　　　　当正则项为L2时，即 $R (θ) = λ | | w | |^{2}$ ，目标函数为
　　　　
　　　　　　　　　　　 $J (w) = \sum_{i = 1}^{N} (y_{i} - w^{T} x_{i})^{2} + λ | | w | |^{2}$ 　　
　　　　　　　　　　　
（3）、Lasso模型：
　　　　当正则项为L1时，即 $R (θ) = λ | w |$ ，目标函数为
　　　　
　　　　　　　　　　　 $J (w) = \sum_{i = 1}^{N} (y_{i} - w^{T} x_{i})^{2} + λ | w |$
　　　　　　　　　　　

2.概率解释

（１）、最小二乘（线性）回归等价于极大似然估计
假设 $y = f (x) + ε = w^{T} x + ε$ ，其中 $ε$ 为线性预测值与真值之间的残差，我们通常假设这个残差服从高斯分布， $ε \sim N (0, σ^{2})$ .因此线性回归可以写成：

　　　　　　　　　　　　　　 $p (y | x, θ) \sim N (y | w^{T} x, σ^{2})$ ，其中 $θ = (w, σ^{2})$
　　　　　　　　　　　　　　
我们复习下极大似然估计（Maximize Likelihood Estimator,MLE）的定义：　

　　　　　　　　　　　　　　 $\hat{θ} = \underset{θ}{a r g m a x} \log p (D | θ)$
其中（log）似然函数为：

　　　　　　　　　　　　　　 $l (θ) = \log p (D | θ) = \sum_{i = 1}^{N} \log p (y_{i} | x_{i}, θ)$ 　　
　　　　　　　　　　　　　　
表示在参数为 $θ$ 的情况下，数据 $D = {x_{i}, y_{i}}_{i = 1}^{N}$ 出现的概率。极大似然就是选择数据出现概率最大的参数。
线性回归法MLE：　

　　　　　　　　　 $p (y_{i} | x_{i}, w, σ^{2}) = N (y_{i} | w^{T} x_{i}, σ^{2}) = \frac{1}{\sqrt{2 π} σ} e x p (- \frac{1}{2 σ^{2}} ((y_{i} - w^{T} x_{i})^{2}))$ 　
　　　　　　　　　
因为OLS的似然函数为：　

　　　　　　　　　　　　　　 $l (θ) = \log p (D | θ) = \sum_{i = 1}^{N} \log p (y_{i} | x_{i}, θ)$ 　　
　　　　　　　　　　　　　　
又因为极大似然可等价地写成极小负log似然损失（negative log likelihood，NLL）：　

　　　　　　　　　　　　　　 $N L L (θ) = - \sum_{i = 1}^{N} \log p (y_{i} | x_{i}, θ)$
　　　　　　　　　　　　　　　　　 $= - \sum_{i = 1}^{N} \log [\frac{1}{\sqrt{2 π} σ} e x p (- \frac{1}{2 σ^{2}} ((y_{i} - w^{T} x_{i})^{2}))]$
　　　　　　　　　　　　　　　　　 $= \frac{N}{2} \log (2 π σ^{2}) + \frac{1}{2 σ^{2}} \sum_{i = 1}^{N} (y_{i} - w^{T} x_{i})^{2}$ 　　
　　　　　　　　　　　　　　　　　
最大化似然公式L(θ)相当于最小化 $N L L (θ) \sim \sum_{i = 1}^{N} (y_{i} - w^{T} x_{i})^{2}$ 等价于最小二乘回归 $J (w)$

（2）、正则回归等价于贝叶斯分布
假设残差分布 $ε \sim N (0, σ^{2})$ ，线性回归可以写成　

　　　　　　　　　　　　　　 $p (y | x, θ) \sim N (y | w^{T} x, σ^{2})$
　　　　　　　　　　　　　　 $p (y_{i} | x_{i}, w, σ^{2}) = N (y_{i} | w^{T} x_{i}, σ^{2} I_{N}) \propto e x p (- \frac{1}{2 σ^{2}} [(y - X w)^{T} (y - X w)])$ 　
　　　　　　　　　　　　　　
ａ、假设 $w$ 的先验分布为高斯分布 $w \sim N (0, τ^{2})$ 　

所以　　　　　　　　　　　　 $p (w) = \prod_{j = 1}^{D} N (w_{j} | 0, τ^{2}) \propto e x p (- \frac{1}{2 τ^{2}} \sum_{j = 1}^{D} w_{j}^{2}) = e x p (- \frac{1}{2 τ^{2}} [w^{T} w])$

其中 $1 / τ^{2}$ 控制先验的强度
根据贝叶斯公式公式，得到参数的后验分布为　

　　　　　　　　　　　　　　 $p (w | X, y, σ^{2}) \propto p (y_{i} | x_{i}, w, σ^{2}) p (w)$
　　　　　　　　　　　　　　　　　　　　　 $= e x p (- \frac{1}{2 σ^{2}} [(y - X w)^{T} (y - X w)] - \frac{1}{2 τ^{2}} [w^{T} w])$ 　
　　　　　　　　　　　　　　　　　　　　　
为方便计算，取对数 $\log p (w | X, y, σ^{2})$ 得到最大后验估计（MAP）等价于最小目标函数　

　　　　　　　　　　　　　　 $J (w) = (y - X w)^{T} (y - X w) + \frac{σ^{2}}{τ^{2}} w^{T} w$ 　
　　　　　　　　　　　　　　
对比下岭回归的目标函数　　

　　　　　　　　　　　　　　 $J (w) = \sum_{i = 1}^{N} (y_{i} - w^{T} x_{i})^{2} + λ | | w | |^{2}$ 　
b、假设 $w$ 的先验分布为Laplace分布 $w \sim N (0, b)$ 　

所以　　　　　　　　　　　　 $p (w) = \prod_{j = 1}^{D} N (w_{j} | μ, b) = \frac{1}{2 b} e x p (\frac{| w - μ |}{b})$

　　　　　　　　　　　　　　　　　 $= \prod_{j = 1}^{D} N (w_{j} | 0, b) \propto e x p (\frac{| w |}{b})$
　　　　　　　　　　　　　　　　　
根据贝叶斯公式公式，得到参数的后验分布为　

　　　　　　　　　　　　　 $p (w | X, y, σ^{2}) \propto p (y_{i} | x_{i}, w, σ^{2}) p (w)$
　　　　　　　　　　　　　　　　　　　　　 $= e x p (- \frac{1}{2 σ^{2}} [(y - X w)^{T} (y - X w)] - \frac{1}{b} | w |)$
　　　　　　　　　　　　　　　　　　　　
为方便计算，取对数 $\log p (w | X, y, σ^{2})$ 得到最大后验估计（MAP）等价于最小目标函数　

　　　　　　　　　　　　　　　 $J (w) = (y - X w)^{T} (y - X w) + \frac{2 σ^{2}}{b} | w |$ 　
　　　　　　　　　　　　　　
对比下Lasso回归的目标函数　　

　　　　　　　　　　　　　 $J (w) = \sum_{i = 1}^{N} (y_{i} - w^{T} x_{i})^{2} + λ | w |$

二、优化求解

优化求解的目的是根据训练数据求目标函数取极小值的参数

　　　　　　　　　　　　　　　　　 $\hat{w} = \underset{w}{a r g m i n} J (w)$
目标函数求极小值的方法：

　　一阶导数为0 ： $\frac{\partial J (w)}{\partial w} = 0$
　　二阶导数>0： $\frac{\partial^{2} J (w)}{\partial w^{2}} > 0$
　　

1.OLS的优化求解

　　　　　　　　　　　　 $J (w) = \sum_{i = 1}^{N} (y_{i} - w^{T} x_{i})^{2} = (y - w X)^{T} (y - w X)$
　　　　　　　　　　　　
　　我们的目标是求解 $w$ ，所以只取关于 $w$ 的部分，得到　
　　
　　　　　　　　　　　 $J (w) = w^{T} (X^{T} X) w - 2 w^{T} (X y)$
　　通过求导可得：
　　　　　　　　　　　 $\frac{\partial J (w)}{\partial w} = 2 X^{T} X - 2 X^{T} y = 0$
　　　　　　　
　　　　　　　　　　　 $X^{T} X w = X^{T} y$
　　　　　　　
　　　　　　　　　　　所以： ${\hat{w}}_{O L S} = (X^{T} X)^{- 1} X^{T} y$
　　　　　　　　　　　
　　这个式子可以通过奇异值分解（singular value decomposition，SVD）求解。
　　下面是SVD的表达：
　　　　　对 $X$ 进行奇异值分解： $X = U Σ V^{T}$
　　　　　其中： $U^{T} U = I_{N}$ 为列正交
　　　　　 $V V^{T} = V^{T} V = T_{D}$ 为行列均正交
　　　　　所以 $X^{T} = V Σ U^{T}$
　　　　　
　　所以 ${\hat{w}}_{O L S} = (X^{T} X)^{- 1} X^{T} y$
　　　　　　　 $＝ (Σ^{2})^{- 1} V Σ U^{T} y$
　　　　　　　 $＝ V Σ^{- 1} U^{T} y$
　　　　　　　
　　OLS除了使用SVD求解外，还可以使用梯度下降法求解，在上一章中，我们看到梯度下降法的基本步骤：

　　　　a.先确定学习率 $η$ ，再给定初始值 $θ^{0}$
　　　　b.计算目标函数在当前参数值的梯度： $▽_{θ} = \frac{\partial J (θ^{t})}{\partial θ}$
　　　　c.更新 $θ$ ,使得 $J (θ)$ 越来越小：
　　　　　　 $θ^{t + 1} = θ^{t} - η ▽_{θ}$
　　　　　　
　　对于我们的OLS函数： $J (w) = \sum_{i = 1}^{N} (y_{i} - w^{T} x_{i})^{2}$
　　则梯度为：
　　　　　　　　　　　　 $g (w) = \frac{\partial J (w)}{\partial w} = \sum_{i = 1}^{N} 2 (f (x_{i}) - y_{i}) x_{i}$
　　所以：
　　　　　　　　　　　　 $w^{t + 1} = w^{t} - η ▽_{w}$
　　　　　　　　　　　　　　　 $= w^{t} - 2 η \sum_{i = 1}^{N} (f (x_{i}) - y_{i}) x_{i}$
　　如此这样一直迭代下去。

2.岭回归的优化求解

　　岭回归的目标函数与最小二乘（OLS）只是相差一个正则项（ $λ | | w | |^{2}$ ）。所以类似的求解可得：
　　
　　　　　　　　　　　　 $\frac{\partial J (w)}{\partial w} = 2 X^{T} X - 2 X^{T} y - 2 λ w^{T} = 0$
　　　　　　　　　　　　
　　　　　　　　　　　　 ${\hat{w}}_{r i g d e} = (X^{T} X + λ I_{D})^{- 1} X^{T} y$ 　
　　　　　　　　　　　　

3.lasso的优化求解

　　lasso的目标函数是： $J (w, λ) = R S S (w) + λ | | w | |_{1}$ ，但是该目标函数的正则项在 $w_{j} = 0$ 不可导，所以这里我们不能用梯度SVD求解，也不能用梯度下降法求解。
　　所以我们引入坐标轴下降法。
　　a、在使用坐标下降法之前，我们想了解下次微分的概念：
　　为了处理不平滑的函数，扩展导数的表示，定义一个（凸）函数 $f$ 在 $x_{0}$ 处的次梯度为一个标量c，使得：
　　
　　　　　　　　　　　　　　 $f (x) - f (x_{0}) \geq c (x - x_{0})$
　　如下图：
机器学习笔记（3）线性回归模型
　　定义区间 $[a, b]$ 的子梯度集合为：
　　
　　　　　　　　　　　　　　 $a = lim_{x \to x_{0}^{-}} \frac{f (x) - f (x_{0})}{x - x_{0}}, b = lim_{x \to x_{0}^{+}} \frac{f (x) - f (x_{0})}{x - x_{0}}$ 　
　　　　　　　　　　　　　　
　　所有次梯度的区间称为函数 $f$ 在 $x_{0}$ 处的次微分(subdefferential)，用 $\partial f (x) |_{x_{0}}$ 表示
　　例如：绝对值函数 $f (x) = | x |$ ，其梯度为
　　　　　　　　　　　　　　 $\partial f (x) = {\begin{cases} {- 1} & if x < 0 \\ [- 1, + 1] & if x = 0 \\ {+ 1} & if x > 0 \end{cases}$ 　
　　b、对lasso求导
　　　　目标函数： $J (w, λ) = R S S (w) = \sum_{i = 1}^{N} (y_{i} - w_{i}^{T} x_{i})^{2} + λ | | w | |_{1}$
　　　　对 $w_{j}$ 求导：
　　　　　　　　　　　　　　 $\frac{\partial}{\partial w_{j}} R S S (w) = \frac{\partial}{\partial w_{j}} \sum_{i = 1}^{N} (y_{i} - (w_{- j}^{T} x_{i, - j} + w_{j} x_{i j}))^{2}$
　　　　　　　　　　　　　　　　　　　　 $= - 2 \sum_{i = 1}^{N} (y_{i} - w_{- j}^{T} x_{i, - j} - w_{j} x_{i j}) x_{i j}$
　　　　　　　　　　　　　　　　　　　　 $= 2 \sum_{i = 1}^{N} w_{j} x_{i j}^{2} - 2 \sum_{i - 1}^{N} x_{i j} (y_{i} - w_{- j}^{T} x_{i, - j})$
　　　　　　　　　　　　　　　　　　　　　
　　令： $a_{j} = 2 \sum_{i = 1}^{N} w_{j} x_{i j}^{2}$ ， $c_{j} = 2 \sum_{i - 1}^{N} x_{i j} (y_{i} - w_{- j}^{T} x_{i, - j})$ ，其中 $(y_{i} - w_{- j}^{T} x_{i, - j})$ 是利用 $D - j$ 维特征得到的预测的残差，则 $c_{j}$ 为第 $j$ 维特征与残差的相关性之和
　　
　　故 $\frac{\partial}{\partial w_{j}} R S S (w) = a_{j} w_{j} - c_{j}$
　　
　　那么 $\partial_{w_{j}} J (w, λ) = (a_{j} w_{j} - c_{j}) + λ \partial_{w_{j}} | | w | |_{1}$ $= {\begin{cases} {a_{j} w_{j} - c_{j} - λ} & if w_{j} < 0 \\ {- c - λ, - c_{j} + λ} & if w_{j} = 0 \\ {a_{j} w_{j} - c_{j} + λ} & if w_{j} > 0 \end{cases}$
　　
　　当 $\partial_{w_{j}} J (w, λ) = 0$ 时最优解　
　　
　　所以 ${\hat{w}}_{j} (c_{j}) = {\begin{cases} (c_{j} + λ) / a_{j} & if c_{j} < - λ \\ 0 & if c_{j} \in [λ, λ] \\ (c_{j} - λ) / a_{j} & if c_{j} > λ \end{cases}$
　　
　　根据 $c_{j}$ 的不同， $\partial_{w_{j}} J (w, λ) = 0$ 有以三种情况:
　　机器学习笔记（3）线性回归模型
　　c、坐标轴下降法
　　
　　　　　1）、预计算 $a_{j} = 2 \sum_{i = 1}^{N} x_{j}^{2}$
　　　　　2）、初始化参数 $w$ (全0或者随机)
　　　　　3）、循环直到收敛：
　　　　　　　　–for j = 0,1,2…D
　　　　　　　　　　　·计算 $c_{j} = 2 \sum_{i - 1}^{N} x_{i j} (y_{i} - w_{- j}^{T} x_{i, - j})$
　　　　　　　　　　　·更新 $w_{j} : {\hat{w}}_{j} (c_{j}) = {\begin{cases} (c_{j} + λ) / a_{j} & if c_{j} < - λ \\ 0 & if c_{j} \in [λ, λ] \\ (c_{j} - λ) / a_{j} & if c_{j} > λ \end{cases}$
　　　　　　　　–选择变化幅度最大的维度进行更新
　　　
　　坐标轴下降法的特点：
　　　　· 为了找到一个函数的局部极小值，在每次迭代中可以在当前点处沿一个坐标方向进行一维搜索
　　　　·整个过程中循环使用不同的坐标方向。一个周期的一维搜索迭代过程相当于一个梯度迭代
　　　　
　　坐标轴下降法需要注意是：
　　　　· 梯度下降方法是利用目标函数的导数（梯度）来确定搜索方向的，而该梯度方向可能不与任何坐标轴平行。
　　　　·而坐标轴下降法是利用当前坐标系统进行搜索，不需要求目标函数的导数，只按照某一坐标方向进行搜索最小值。（在稀疏矩阵上的计算速度非常快，同时也是Lasso回归最快的解法）
　　　　

三、模型评估与模型选择

　　当模型训练好后，需要在校验集上采用一些度量准则检查模型预测的效果，可通过两个步骤去实现：
　　　1）校验集的划分（train_test_split、交叉验证）
　　　2）评价指标（sklearn.metrics）

　　在选择预测性能最好的模型过程中，我们还需要对模型中的一些超参数进行设置，如线性回归模型中的正则参数λ，以及例如OLS中的特征的数目等参数去选择模型。但是我们去确定参数时，是通过给定一定范围的数值作为输入的，该参数的搜索范围我们一般在Scikitlearn中使用的是网格搜索（GridSearch），且在Scikitlearn中，已经将交叉验证与网格搜索合并为一个函数：sklearn.model_selection.GridSearchCV。
　　在Scikitlearn中的modelselection模块提供的模型选择功能中，对于线性模型，留一交叉验证（N折交叉验证，亦称为leave-oneout cross-validation，LOOCV）有更简便的计算方式，因此Scikitlearn还提供了RidgeCV类和LassoCV类实现了这种方式。
　　
　　RidgeCV中超参数λ用alpha表示，RidgeCV(alphas=(0.1,1.0,10.0),
　　fit_intercept=True,normalize=False,scoring=None,cv=None,gcv_mode=None,store_cv_values=False)
　　
　　LassoCV的使用与RidgeCV类似，Scikitlearn还提供一个与Lasso类似的LARS（least angle regression，最小角回归），二者仅仅是优化方法不同，目标函数相同。有一点需要注意的是当数据集中特征维数很多且存在共线性时，LassoCV更合适。
　　
　　模型的评价指标，在上一章中，我们已经确定了有如下几种准则：
　　　（1）、开平均方误差（rooted mean squared error , RMSE）：RMSE= $\sqrt{\frac{1}{N} \sum_{i = 1}^{N} (\hat{y_{i}} - y_{i})^{2}}$
　　　（2）、平均绝对误差（mean absolute error, MAE）：MAE= $\frac{1}{N} \sum_{i = 1}^{N} | \hat{y_{i}} - y_{i} |$
　　　（3）、R2 score：即考虑预测值和真值之间的差异，也考虑了问题本身真值之间的差异（scikit learn线性回归的缺省评价准则）
　　　　　　　　 $S S_{r e s} = \sum_{i = 1}^{N} (\hat{y_{i}} - y_{i})^{2}$
　　　　　　　　 $S S_{t o t} = \sum_{i = 1}^{N} (y_{i} - \bar{y})^{2}$
　　　　　　　　 $R^{2} = 1 - \frac{S S_{r e s}}{S S_{t o t}}$
　　所以， $R^{2}$ 越大，模型越好。
　　
　　我们的模型评估和选择，是在Scikitlearn上面做的，这个工具包封装了比较好的API，非常方便我们使用，下面是几种比较常见的API，有兴趣的话，可以去官方文档看下。
机器学习笔记（3）线性回归模型

在模型的评价中，除了上述的指标外，我们也可以通过可视化将更为直观的将结果显示出来，比如
　　1）检查残差的分布
　　2）打印出预测值与真值的散点图
　　
　比如波士顿房价中预测残差的分布图：
机器学习笔记（3）线性回归模型
前面我们已经说过，极大似然估计假设残差的分布正是为0均值的正态分布。上图中，残差也近似0均值的正太分布，说明拟合的还可以。
在看下预测值与真值的散点图：

当散点图如上所示，说明预测值和真值之间相关性很强，也说明模型效果愈佳。

机器学习笔记（3）线性回归模型