机器学习算法/模型——模型泛化

理论

概论

  • 泛化误差/预测误差
    学习算法的预测误差, 或者说泛化误差(generalization error)可以分解为三个部分: 偏差(bias), 方差(variance) 和噪声(noise). 在估计学习算法性能的过程中, 我们主要关注偏差与方差. 因为噪声属于不可约减的误差 (irreducible error).

  • 偏差:描述模型输出结果的期望与样本真实结果差距
    (“偏”——偏离,偏离真实的标签。)

  • 方差:描述模型对于给定值的输出稳定性
    (在统计学中,方差描述的是这个随机变量的离散程度,也就是该随机变量在其期望值附近波动程度。)
    机器学习算法/模型——模型泛化就像打靶一样,偏差描述了我们的射击总体是否偏离了我们的目标,而方差描述了射击准不准。

公式推导

泛化误差 = 偏差 + 方差 + 噪声学习

算法的预测误差, 或者说泛化误差(generalization error)可以分解为三个部分: 偏差(bias), 方差(variance) 和噪声(noise). 在估计学习算法性能的过程中, 我们主要关注偏差与方差. 因为噪声属于不可约减的误差 (irreducible error).
机器学习算法/模型——模型泛化

”偏差-方差分解(bias-variance decomposition)“是解释学习算法泛化能力性能的一种重要工具。偏差-方差分解试图对学习算法的期望泛化错误率进行拆解。

噪声:错误标记

模型在当前任务能达到的期望泛化误差的下届 - 数据决定算法的上界,算法只是在逼近这个上界。

方差:模型的预测稳定性 - 数据扰动对模型的影响

偏差:考察模型本身拟合能力

经验误差与泛化能力之间的矛盾

其实说白了,还是因为真实数据无法达到无限的水平造成的过拟合问题:

如果完全依赖手里的数据集 D ,则训练出来的模型则会对训练数据表现得非常好(偏差小),但是对数据集 D 之外的数据,即新数据,表现得不好(过拟合);

若限制模型对数据集 D 的依赖,添加惩罚(正则项),则模型会增加了模型对数据扰动的抵抗能力(模型稳定性),但反过来又限制了模型自身的稳定性(偏差变大)。

分析手段

解决办法