模型的过拟合与欠拟合

样本数据集:样本数据集总是表现为数据的内在规律(如:y=f(x))与随机噪声共同作用的结果。

训练集:训练集是用于训练模型的样本数据集合。我们总是希望通过训练集,找到真实数据的内在规律,同时又希望避开训练集数据的随机噪声对模型产生的影响。

泛化能力:模型通常由训练集数据训练获得,但我们希望的是模型在测试集上有较好的表现,也就是希望模型能够对其他训练集以外 的样本的目标值做出正确的预测和判断,这种能力称为模型的泛化能力。

机器学习的一般模式:我们通常可以将机器学习的过程看作求解形如 模型的过拟合与欠拟合的函数的过程,其中变换模型的过拟合与欠拟合是人为指定的映射形式,模型的过拟合与欠拟合向量代表函数中的未知参数(通常包含特征值的权重和偏置)。机器学习的过程就是,计算机通过人为设定的奖惩和规则,从训练集中学习到模型的过拟合与欠拟合向量的过程。

由上可知,我们面临的第一个问题是,设定怎样的变换模型的过拟合与欠拟合才能够使得模型最终能够较好地拟合数据的真实情况呢?

或者我们应该把问题再缩小一点,以多项式回归的拟合过程为例,我们用形如模型的过拟合与欠拟合的多项式企图拟合特征值模型的过拟合与欠拟合与目标值模型的过拟合与欠拟合之间的关系,那么多项式的次数n应该为多少才能较好地拟合真实数据呢?

模型的欠拟合:模型缺乏较好反应数据真实规律的能力。造成这样结果的通常原因是模型设置地不够复杂,因此缺乏拟合真实规律的能力。

模型的过拟合:模型过度拟合训练集,使得训练集的随机噪声对模型参数调整产生了较大影响,同样不能够较好地反应数据的真实规律。造成这样结果的通常原因,一是模型设置过于复杂,二是样本点的数量未远大于可调节的参数数量。

模型的过拟合与欠拟合

我们以刚才的多项式回归问题为例,如上图可以看到特征值与目标值明显为非线性的关系。

如果用n=1的线性模型就缺乏拟合数据真实规律的能力,如上图左侧所示;如果n过大就过度拟合了数据的随机性,如上图右侧所示。这两种情况下均不能对新的数据进行合理的预测。

因此,当n设置地过小,通常就出现了欠拟合现象;当n设置的过大,就会出现过拟合现象。仅当n处于一个较为适合地范围内,模型才能较好地贴合数据的真实规律。

以下规律是欠拟合和过拟合的常见特点:

1、欠拟合的模型在训练集和测试集上都表现出较大的根均方误差RMS(根均方公式:模型的过拟合与欠拟合,其中模型的过拟合与欠拟合是二分之一的残差平方和,N为数据点数目),过拟合在训练集上表现出较小的RMS,在测试集上表现为较大RMS。

2、过拟合的模型参数通常很大,也就是说以一种较为剧烈的方式进行了拟合。因此通常采用添加带权重的正则化罚项的方式缓和过拟合问题,例如岭回归与lasso回归。

3、通常来说,训练数据集的规模越大,过拟合现象就能得到缓解。也就是说,通常数据集越大,我们采用的模型就应该设计地越复杂越灵活,待解决问题的复杂性与设计模型的复杂性成正相关。这一点在多层神经网络的层数和神经元个数的设计中也有体现。

4、数据集中点的数量应该远大于模型可调节参数的数量。