machine learning个人笔记系列(六)

向Andrew Ng的机器学习课程致敬

使用机器学习的建议

这章主要讨论如何优化算法。

  1. 将数据集划分为3小类数据集:训练集,验证集,测试集
  2. 使用训练集来训练模型,使用验证集来选择参数,使用测试集来验证效果

训练错误与验证错误

先来看看模型的训练错误率与验证集错误率的关系
如下图所示:

machine learning个人笔记系列(六)

machine learning个人笔记系列(六)

以线性回归模型为例,随着特征值的幂越来越高,训练集的错误率越来越低,而验证集的错误率则有一个先下降后上升的过程。先下降是因为之前是欠拟合(bias),后上升是因为过拟合(variance)。

错误率与正则化参数

再来看加上正则项后,错误率与正则化参数的关系,如下图所示:

machine learning个人笔记系列(六)

学习曲线

下面是欠拟合与过拟合两种场景的错误率曲线图,欠拟合时,训练错误率与验证错误率都很高。
machine learning个人笔记系列(六)

过拟合则训练错误率比较小,但是验证错误率会比较高。
machine learning个人笔记系列(六)

调试算法

machine learning个人笔记系列(六)