理论

概论

泛化误差/预测误差
学习算法的预测误差, 或者说泛化误差(generalization error)可以分解为三个部分: 偏差(bias), 方差(variance) 和噪声(noise). 在估计学习算法性能的过程中, 我们主要关注偏差与方差. 因为噪声属于不可约减的误差 (irreducible error).
偏差：描述模型输出结果的期望与样本真实结果的差距。
（“偏”——偏离，偏离真实的标签。）
方差：描述模型对于给定值的输出稳定性。
（在统计学中，方差描述的是这个随机变量的离散程度，也就是该随机变量在其期望值附近的波动程度。）
就像打靶一样，偏差描述了我们的射击总体是否偏离了我们的目标，而方差描述了射击准不准。

公式推导

泛化误差 = 偏差 + 方差 + 噪声学习

算法的预测误差, 或者说泛化误差(generalization error)可以分解为三个部分: 偏差(bias), 方差(variance) 和噪声(noise). 在估计学习算法性能的过程中, 我们主要关注偏差与方差. 因为噪声属于不可约减的误差 (irreducible error).
机器学习算法/模型——模型泛化

”偏差-方差分解（bias-variance decomposition）“是解释学习算法泛化能力性能的一种重要工具。偏差-方差分解试图对学习算法的期望泛化错误率进行拆解。

噪声：错误标记

模型在当前任务能达到的期望泛化误差的下届 - 数据决定算法的上界，算法只是在逼近这个上界。

方差：模型的预测稳定性 - 数据扰动对模型的影响

偏差：考察模型本身拟合能力

经验误差与泛化能力之间的矛盾

其实说白了，还是因为真实数据无法达到无限的水平造成的过拟合问题：

如果完全依赖手里的数据集 D ，则训练出来的模型则会对训练数据表现得非常好（偏差小），但是对数据集 D 之外的数据，即新数据，表现得不好（过拟合）；

若限制模型对数据集 D 的依赖，添加惩罚（正则项），则模型会增加了模型对数据扰动的抵抗能力（模型稳定性），但反过来又限制了模型自身的稳定性（偏差变大）。

机器学习算法/模型——模型泛化

模型泛化

理论

概论

公式推导

泛化误差 = 偏差 + 方差 + 噪声学习

噪声：错误标记

方差：模型的预测稳定性 - 数据扰动对模型的影响

偏差：考察模型本身拟合能力

经验误差与泛化能力之间的矛盾

分析手段

解决办法

相关推荐