机器学习中偏差(bias)，方差(variance)与噪音(noise)的关系

先定义一些变量和方式

Samples	<X,y>
真实函数 (True Function)	y= f(X) +ϵ
ϵ	均值为0，标准方差为的高斯分布
h(X)	拟合函数(以多项式为例)

所以平方差和（sum-squared error）为：

所以我们往往通过最小化平方差和来求解拟合函数中的未知参数（如多项式中的w）。多次训练的结果存在细微的差别，如下图中所示：

机器学习中偏差(bias)，方差(variance)与噪音(noise)的关系

对于新的测试点X，如何计算预测误差？

机器学习中偏差(bias)，方差(variance)与噪音(noise)的关系

Eq.1
定义h(X)的期望E[h(X)]为 h ̅(X)，并且根据期望和方差之间的关系式
所以Eq.1 中E[〖h(X)〗^2 ]=E[(〖h(X)-h ̅(X))〗^2 ]+〖h ̅(X)〗^2 Eq.2

又因为E[y]=E[f(X) +ϵ]=f(X)
所以Eq.1 中E[y^2 ]= E[(〖y-f(X))〗^2 ]+〖f(X)〗^2 Eq.3

所以将Eq.2和Eq.3代入Eq.1得：
E[(y-h(X))^2 ]=E[(〖h(X)-h ̅(X))〗^2 ] (方差variance)
+(h ̅(X)-f(X))^2 (偏差bias)
+ E[(〖y-f(X))〗^2 ] (噪音noise)

预测误差 = 方差 + 偏差^2 +噪音^2
方差E[(〖h(X)-h ̅(X))〗^2 ]描述了假设的拟合函数的变化程度，因为噪音的存在使得训练集存在细微差异，刻画了数据变动(扰动)所带来的影响，鲁棒性；
偏差(h ̅(X)-f(X))^2描述了在假设的可能的拟合函数集的平均误差，刻画了算法本身的拟合能力，准确性；
噪音E[(〖y-f(X))〗^2 ]描述了不可避免的随机误差，表达了学习问题本身的难度。

机器学习中偏差(bias)，方差(variance)与噪音(noise)的关系

另外偏差和方差之间存在着矛盾我们叫做（bias-variance dilemma）
机器学习中偏差(bias)，方差(variance)与噪音(noise)的关系

这部分内容可以参考https://www.zhihu.com/question/27068705 或是西瓜书的2.5章。

核心的意思是，在模型学习程度较低时，由于训练不足，训练的偏差（bias）较大，而训练数据的干扰带来的误差（variance）很小，这种阶段就是机器学习中的欠拟合（unfitting）；当训练程度加深，偏差变小，但是由于对于当前数据集学习程度加深，如果当前数据集自身的非全局性的特性被学习到，那么会带来过拟合（overfitting）的结果。

所以对于确定型系统（deterministic system）来说（noise-free）,系统的目标往往是预测偏差最小；

对于含有噪音的系统（experiment system）来说，系统的目标通常为最小化预测方差（Variance）。

参考材料

http://www-scf.usc.edu/~csci567/17-18-bias-variance.pdf

https://www.zhihu.com/question/27068705

机器学习中偏差(bias)，方差(variance)与噪音(noise)的关系

相关推荐