使用机器学习的建议

这章主要讨论如何优化算法。

训练错误与验证错误

先来看看模型的训练错误率与验证集错误率的关系
如下图所示：

machine learning个人笔记系列（六）

以线性回归模型为例，随着特征值的幂越来越高，训练集的错误率越来越低，而验证集的错误率则有一个先下降后上升的过程。先下降是因为之前是欠拟合（bias），后上升是因为过拟合(variance)。

再来看加上正则项后，错误率与正则化参数的关系，如下图所示：

machine learning个人笔记系列（六）

下面是欠拟合与过拟合两种场景的错误率曲线图，欠拟合时，训练错误率与验证错误率都很高。
machine learning个人笔记系列（六）

过拟合则训练错误率比较小，但是验证错误率会比较高。
machine learning个人笔记系列（六）

machine learning个人笔记系列（六）