利用正规化解决过拟合问题

在之前的文章中，我们认识了过拟合问题,通常，我们有如下策略来解决过拟合问题：

减少特征数，显然这只是权宜之计，因为特征意味着信息，放弃特征也就等同于丢弃信息，要知道，特征的获取往往也是艰苦卓绝的。
不放弃特征，而是拉伸曲线使之更加平滑以解决过拟合问题，为了拉伸曲线，也就要弱化一些高阶项（曲线曲折的罪魁祸首）。由于高阶项中的特征 $x$ 无法更改，因此特征是无法弱化的，我们能弱化的只有高阶项中的系数 $θ_i$ 。我们把这种弱化称之为是对参数 $θ$ 的惩罚（penalize）。Regularization（正规化） 正是完成这样一种惩罚的“侩子手”。

如下例所示，我们将 $θ_3$ 及 $θ_4$ 减小（惩罚）到趋近于 0 ，原本过拟合的曲线就变得更加平滑，趋近于一条二次曲线（在本例中，二次曲线显然更能反映住房面积和房价的关系），也就能够更好的根据住房面积来预测房价。要知道，预测才是我们的最终目的，而非拟合。
斯坦福机器学习笔记-利用正规化解决过拟合问题

线性回归中的正规化

在线性回归中，我们的预测代价如下评估：
$J(θ)=\frac1{2m}∑_{i=1}^m(h_θ(x^{(i)})−y^{(i)})^2$

为了在最小化 $J(θ)$ 的过程中，也能尽可能使 $θ$ 变小，我们将上式更改为:
$J(θ)=\frac1{2m}∑_{i=1}^m(h_θ(x^{(i)})−y^{(i)})^2+ λ∑_{j=1}^n θ_j^2$ $=\frac1{2m}(Xθ-y)^T(Xθ-y)+ λ∑_{j=1}^n θ_j^2$

其中，参数 $λ$ 主要是完成以下两个任务:

保证对数据的拟合良好
保证 θ 足够小，避免过拟合问题。

$λ$ 越大，要使 $J(θ)$ 变小，惩罚力度就要变大，这样 $θ$ 会被惩罚得越惨（越小），即要避免过拟合，我们显然应当增大 $λ$ 的值。

那么，梯度下降也发生相应变化：
斯坦福机器学习笔记-利用正规化解决过拟合问题
其中，（1）式等价于：
$θ_j=θ_j(1−α\frac λm)−α\frac 1m∑_{i=1}^m[h_θ(x^{(i)})−y^{(i)}]x^{(i)}_j$

由于 $1−α\frac λm<1$ ，故而梯度下降中每次更新 $θ$ ，同时也会去减小 $θ$ 值，达到了 Regularization 的目的。

如果使用正规方程，则使 $J(θ)$ 最小化的 $θ$ 值为：
斯坦福机器学习笔记-利用正规化解决过拟合问题

逻辑回归中的正规化

斯坦福机器学习笔记-利用正规化解决过拟合问题

斯坦福机器学习笔记-利用正规化解决过拟合问题

利用正规化解决过拟合问题

线性回归中的正规化

逻辑回归中的正规化

相关推荐