方差、偏差、噪声、泛化误差之间的关系

       为了更明确的说明方差、偏差、噪声、泛化误差之间的关系,先定义几个变量:

yD:实例x在数据集D中的标记在实际工程中的flag(标签)列

yx的真实标记(该值是理论值,实际工程中一般是不能获得的)。

f(x;D)训练集D上学得模型f使用模型f预测x值为f(x;D)

f(x)训练集D上学得模型f使用模型f预测x期望值为f(x)。即f(x) = ED[f(x;D)]

那么,可以得到方差的公式为:Var(x) = ED[(f(x;D) – f(x))2]

噪声的平方公式为:v2 = ED[(yD - y)2]

偏差的平方公式为:bias2 (x)= (f(x) - y)2

注:这里取噪声和偏差的平方是为了方便表达,噪声和偏差可由对应的平方公式开方而得。

泛化误差的公式为:E(f;D) = bisa2(x) + Var + v2

由此可见:由方差、偏差、噪声、泛化误差的公式可以看出,偏差度量了模型预测的期望值与真实值之间的偏离程度,刻画了模型本身的拟合能力;方差度量了训练集的变动对预测结果的影响;噪声表达了能达到的期望误差的下界,刻画了学习问题本身的难度。

方差、偏差、泛化误差之间的关系如下图所示:

 方差、偏差、噪声、泛化误差之间的关系

参考:周志华 《机器学习》