斯坦福机器学习笔记-利用正规化解决过拟合问题
利用正规化解决过拟合问题
在之前的文章中,我们认识了过拟合问题,通常,我们有如下策略来解决过拟合问题:
-
减少特征数,显然这只是权宜之计,因为特征意味着信息,放弃特征也就等同于丢弃信息,要知道,特征的获取往往也是艰苦卓绝的。
-
不放弃特征,而是拉伸曲线使之更加平滑以解决过拟合问题,为了拉伸曲线,也就要弱化一些高阶项(曲线曲折的罪魁祸首)。由于高阶项中的特征 无法更改,因此特征是无法弱化的,我们能弱化的只有高阶项中的系数 。我们把这种弱化称之为是对参数 的惩罚(penalize)。Regularization(正规化) 正是完成这样一种惩罚的“侩子手”。
如下例所示,我们将 及 减小(惩罚)到趋近于 0 ,原本过拟合的曲线就变得更加平滑,趋近于一条二次曲线(在本例中,二次曲线显然更能反映住房面积和房价的关系),也就能够更好的根据住房面积来预测房价。要知道,预测才是我们的最终目的,而非拟合。
线性回归中的正规化
在线性回归中,我们的预测代价如下评估:
为了在最小化 的过程中,也能尽可能使 变小,我们将上式更改为:
其中,参数 主要是完成以下两个任务:
- 保证对数据的拟合良好
- 保证 θ 足够小,避免过拟合问题。
越大,要使 变小,惩罚力度就要变大,这样 会被惩罚得越惨(越小),即要避免过拟合,我们显然应当增大 的值。
那么,梯度下降也发生相应变化:
其中,(1)式等价于:
由于 ,故而梯度下降中每次更新 ,同时也会去减小 值,达到了 Regularization 的目的。
如果使用正规方程,则使 最小化的 值为: