机器学习中偏差(bias),方差(variance)与噪音(noise)的关系

先定义一些变量和方式

Samples

<X,y>

真实函数 (True Function)

y= f(X) +ϵ

ϵ

均值为0,标准方差为的高斯分布

h(X)

拟合函数(以多项式为例)

机器学习中偏差(bias),方差(variance)与噪音(noise)的关系
所以平方差和(sum-squared error)为:
机器学习中偏差(bias),方差(variance)与噪音(noise)的关系

所以我们往往通过最小化平方差和来求解拟合函数中的未知参数(如多项式中的w)。多次训练的结果存在细微的差别,如下图中所示:

机器学习中偏差(bias),方差(variance)与噪音(noise)的关系

机器学习中偏差(bias),方差(variance)与噪音(noise)的关系

对于新的测试点X,如何计算预测误差?

 机器学习中偏差(bias),方差(variance)与噪音(noise)的关系 Eq.1
定义h(X)的期望E[h(X)]为 h ̅(X),并且根据期望和方差之间的关系式
所以Eq.1 中E[〖h(X)〗^2 ]=E[(〖h(X)-h ̅(X))〗^2 ]+〖h ̅(X)〗^2  Eq.2


又因为E[y]=E[f(X) +ϵ]=f(X)
所以Eq.1 中E[y^2 ]= E[(〖y-f(X))〗^2 ]+〖f(X)〗^2   Eq.3


所以将Eq.2和Eq.3代入Eq.1得:
E[(y-h(X))^2 ]=E[(〖h(X)-h ̅(X))〗^2 ]  (方差variance)
+(h ̅(X)-f(X))^2                   (偏差bias)
+ E[(〖y-f(X))〗^2 ]                   (噪音noise)

预测误差 = 方差 + 偏差^2  +噪音^2 
方差E[(〖h(X)-h ̅(X))〗^2 ]描述了假设的拟合函数的变化程度,因为噪音的存在使得训练集存在细微差异,刻画了数据变动(扰动)所带来的影响,鲁棒性;
偏差(h ̅(X)-f(X))^2描述了在假设的可能的拟合函数集的平均误差,刻画了算法本身的拟合能力,准确性;
噪音E[(〖y-f(X))〗^2 ]描述了不可避免的随机误差,表达了学习问题本身的难度。

 机器学习中偏差(bias),方差(variance)与噪音(noise)的关系

机器学习中偏差(bias),方差(variance)与噪音(noise)的关系

 
另外偏差和方差之间存在着矛盾我们叫做(bias-variance dilemma)
 机器学习中偏差(bias),方差(variance)与噪音(noise)的关系
这部分内容可以参考https://www.zhihu.com/question/27068705 或是西瓜书的2.5章。

核心的意思是,在模型学习程度较低时,由于训练不足,训练的偏差(bias)较大,而训练数据的干扰带来的误差(variance)很小,这种阶段就是机器学习中的欠拟合(unfitting);当训练程度加深,偏差变小,但是由于对于当前数据集学习程度加深,如果当前数据集自身的非全局性的特性被学习到,那么会带来过拟合(overfitting)的结果。


所以对于确定型系统(deterministic system)来说(noise-free),系统的目标往往是预测偏差最小;

对于含有噪音的系统(experiment system)来说,系统的目标通常为最小化预测方差(Variance)。


参考材料

http://www-scf.usc.edu/~csci567/17-18-bias-variance.pdf

https://www.zhihu.com/question/27068705