学习曲线

本节我们学习在高偏差和高方差的情况下,增加数据的个数能否有效的改进算法误差。

当训练集的个数很少时,你会发现数据很好用一条线来拟合,所以误差很小,当训练集的个数越来越多时,用一条线越来越难拟合所有的数据,所以误差越来越大。

但反之,当训练集个数越多,越具有泛化作用,验证集的误差越小,当训练集的数据较少时,泛化性差,验证集误差很大。

学习曲线

在高偏差的情况下,想通过增加训练集的个数来改进算法,结果发现是不可取的。

学习曲线

在高方差的情况下,想通过增加训练集的个数来改进算法,结果发现是可取的。

学习曲线

本章总结:

 1、我们可能尝试着去获取更多的训练集,认为只要获取两倍甚至10倍的训练集就可以得到准确的结果-------高方差问题

 2、我们尝试着去减少特征的个数,从而避免过拟合的结果-------高方差问题

 3、增加特征的个数-------高偏差问题

 4、我们也可能会尝试增加多项式特征的方法,比如x1的平方、x2的平方-------高偏差问题

 5、减小正则化参数-------高偏差问题

 6、增加正则化参数-------高方差问题

 

学习曲线

 

学习曲线