拟合(Overfitting)及正则化方法(regularization)

是什么？

如果我们有非常多的特征，通过学习得到的hypothesis可能能够好地适应训练集（代价函数可能几乎为0），但是对于新的数据不能很好的预测（泛化能力差）。

如图：

模型一：欠拟合（Underfitting）

模型三：过拟合（Overfitting）

怎么克服？

一般参数越少，得到的hypothesis越光滑越简单。

对于过拟合问题我们可以采用以下方法：

1. 减少特征

　　（1）人工选择保留哪些特征

　　（2）使用模型选择算法自动选取特征，比如PCA等。

2. 正则化（regularization）：保留所有特征，但是给某些或者全部特征加惩罚项。

正则化

以线性回归问题为例（逻辑回归表达式一样，只不过hypothesis不同）

一个较为简单的使用正则化来防止过拟合的例子：

　拟合(Overfitting)及正则化方法(regularization) 　其中，λ称为正则化参数（Regularization Parameter）

注意，这里的 j 从1开始，在实际应用中，j从0还是从1开始差别不大。一般都从1开始。

因为未对Θ₀正则化，所以梯度下降法分两步：

拟合(Overfitting)及正则化方法(regularization)

可以看出，第二项和不加正则化时相同，只是第一项对Θj进行了缩小。当学习速率取比较小，样本数量很多时，Θj改变不大（系数是小于1但是很接近1的一个实数）。

对于正规方程法加了正则化项之后最终公式如下：

拟合(Overfitting)及正则化方法(regularization)

注：1. 图中矩阵的行=列=特征数

　　2.对于正规方程法他的X^TX有可能是不可逆的，但是这里加了这一项之后，可以证明它是可逆的。这不仅达到了正则化的目的也解决了不可逆的问题。