斯坦福机器学习笔记-利用正规化解决过拟合问题

利用正规化解决过拟合问题

在之前的文章中,我们认识了过拟合问题,通常,我们有如下策略来解决过拟合问题:

  1. 减少特征数,显然这只是权宜之计,因为特征意味着信息,放弃特征也就等同于丢弃信息,要知道,特征的获取往往也是艰苦卓绝的。

  2. 不放弃特征,而是拉伸曲线使之更加平滑以解决过拟合问题,为了拉伸曲线,也就要弱化一些高阶项(曲线曲折的罪魁祸首)。由于高阶项中的特征 xx 无法更改,因此特征是无法弱化的,我们能弱化的只有高阶项中的系数 θiθ_i。我们把这种弱化称之为是对参数 θθ 的惩罚(penalize)。Regularization(正规化) 正是完成这样一种惩罚的“侩子手”。

如下例所示,我们将 θ3θ_3θ4θ_4 减小(惩罚)到趋近于 0 ,原本过拟合的曲线就变得更加平滑,趋近于一条二次曲线(在本例中,二次曲线显然更能反映住房面积和房价的关系),也就能够更好的根据住房面积来预测房价。要知道,预测才是我们的最终目的,而非拟合。
斯坦福机器学习笔记-利用正规化解决过拟合问题

线性回归中的正规化

在线性回归中,我们的预测代价如下评估:
J(θ)=12mi=1m(hθ(x(i))y(i))2J(θ)=\frac1{2m}∑_{i=1}^m(h_θ(x^{(i)})−y^{(i)})^2

为了在最小化 J(θ)J(θ) 的过程中,也能尽可能使 θθ 变小,我们将上式更改为:
J(θ)=12mi=1m(hθ(x(i))y(i))2+λj=1nθj2J(θ)=\frac1{2m}∑_{i=1}^m(h_θ(x^{(i)})−y^{(i)})^2+ λ∑_{j=1}^n θ_j^2=12m(Xθy)T(Xθy)+λj=1nθj2=\frac1{2m}(Xθ-y)^T(Xθ-y)+ λ∑_{j=1}^n θ_j^2

其中,参数 λλ 主要是完成以下两个任务:

  1. 保证对数据的拟合良好
  2. 保证 θ 足够小,避免过拟合问题。

λλ 越大,要使 J(θ)J(θ) 变小,惩罚力度就要变大,这样 θθ 会被惩罚得越惨(越小),即要避免过拟合,我们显然应当增大 λλ 的值。

那么,梯度下降也发生相应变化:
斯坦福机器学习笔记-利用正规化解决过拟合问题
其中,(1)式等价于:
θj=θj(1αλm)α1mi=1m[hθ(x(i))y(i)]xj(i)θ_j=θ_j(1−α\frac λm)−α\frac 1m∑_{i=1}^m[h_θ(x^{(i)})−y^{(i)}]x^{(i)}_j

由于 1αλm<11−α\frac λm<1 ,故而梯度下降中每次更新 θθ ,同时也会去减小 θθ 值,达到了 Regularization 的目的。

如果使用正规方程,则使 J(θ)J(θ) 最小化的 θθ 值为:
斯坦福机器学习笔记-利用正规化解决过拟合问题

逻辑回归中的正规化

斯坦福机器学习笔记-利用正规化解决过拟合问题