经验误差与过拟合

1.经验误差

   “误差”是学习器的实际预测输出与样本的真实输出之间的差异;比如一组数据 1,2,4,5.使用阈值3,将其分为两类。假设学习器的分类结果为 1和 2,4, 5 。但是实际的结果为1,2,和4,5,分错的2就是误差。

那什么是经验误差呢?没啥神秘,其实就是在训练集的误差,也叫训练误差。相对于经验误差的,还有大家经常遇到的泛化误差,泛化误差是在新样本(测试集)的误差。

显然,我们都希望泛化误差小的学习器。然而,我们事先是不知道新样本是什么的样的,实际上能做的就是使学习器的经验误差尽量小。大多数情况,我们可以学的一个经验误差很小、在训练集上表现良好的学习器。

如果对所有训练集都分类正确,即分类错误率为0,但这样的学习器好吗?

2.过拟合

    我们实际希望的是在新样本上表现的很好的学习器。为了达到这个目的,应该为从训练样本中尽可能学出是适用于所有潜在样本的“普遍规律”,就相当于支持向量机分类时寻找到好的支持向量,这样才能在遇到新样本时做出正确的判别。然而,当学习器把训练样本学的“太好”了的时候,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这会导致泛化性能下降。这种现象在机器学习中称为“过拟合”。与过拟合相对的是“欠拟合”,这是指对训练样本的一般性质尚未学好。图1,给出关于过拟合和欠拟合的一个便于直接理解的类比。

经验误差与过拟合