机器学习(吴恩达)笔记——高偏差高方差

转载自https://blog.****.net/The_lastest/article/details/78357727?locationNum=9&fps=1

学习曲线(learning curve)是将训练集误差和交叉验证集误差作为训练集实例数量(m)的函数绘制的图表
一个能有效帮助我们分析训练模型是否出现问题的工具。

1、高偏差的学习曲线

机器学习(吴恩达)笔记——高偏差高方差

从这个曲线我们可以看到:

当m很小的时候,Jtrain(θ)也很小,因为很容易就能拟合(甚至过拟合),但用这个训练好的模型在验证集上来验证,就会出现很差的效果Jcv(θ)异常的大;随着m的增大,Jtrain(θ)开始增大,Jcv(θ)开始减小;当m越来越大的时候,Jcv(θ)也越来越小,也就是说明模型的泛化程度越来越好;但随着m的增大,Jtrain(θ)也迅速增大,然后超过了最优值,虽然Jcv(θ)也在一直减少,但是始终不会达到最优状态且离最优值很远,故而出现高偏差。所以,如果一个模型如果出现了高偏差的话,增加训练集的数量就没有作用了。

2、高方差的学习曲线

机器学习(吴恩达)笔记——高偏差高方差

当m较小时,同上面一样;随着m的增大,Jcv(θ)也逐渐变小,也就是说明模型的泛化程度越来越好;当m越来越大时,Jtrain(θ)的虽然持续在增长,但是几乎出现了停滞,很靠近最优的情况;且随着m的增长模型的泛化能力一直在增强,但同样增长得比较缓慢,故而出现了高方差。所以,如果一个模型如果出现了高方差的话,增加训练集的数量仍可以提高模型的性能。

3、总结

在高偏差/欠拟合的情况下,增加数据到训练集不一定能有帮助

在高方差/过拟合的情况下,增加更多数据到训练集可能可以提高算法效果