机器学习算法/模型——模型泛化
模型泛化
理论
概论
-
泛化误差/预测误差
学习算法的预测误差, 或者说泛化误差(generalization error)可以分解为三个部分: 偏差(bias), 方差(variance) 和噪声(noise). 在估计学习算法性能的过程中, 我们主要关注偏差与方差. 因为噪声属于不可约减的误差 (irreducible error). -
偏差:描述模型输出结果的期望与样本真实结果的差距。
(“偏”——偏离,偏离真实的标签。) -
方差:描述模型对于给定值的输出稳定性。
(在统计学中,方差描述的是这个随机变量的离散程度,也就是该随机变量在其期望值附近的波动程度。)
就像打靶一样,偏差描述了我们的射击总体是否偏离了我们的目标,而方差描述了射击准不准。
公式推导
泛化误差 = 偏差 + 方差 + 噪声学习
算法的预测误差, 或者说泛化误差(generalization error)可以分解为三个部分: 偏差(bias), 方差(variance) 和噪声(noise). 在估计学习算法性能的过程中, 我们主要关注偏差与方差. 因为噪声属于不可约减的误差 (irreducible error).
”偏差-方差分解(bias-variance decomposition)“是解释学习算法泛化能力性能的一种重要工具。偏差-方差分解试图对学习算法的期望泛化错误率进行拆解。
噪声:错误标记
模型在当前任务能达到的期望泛化误差的下届 - 数据决定算法的上界,算法只是在逼近这个上界。
方差:模型的预测稳定性 - 数据扰动对模型的影响
偏差:考察模型本身拟合能力
经验误差与泛化能力之间的矛盾
其实说白了,还是因为真实数据无法达到无限的水平造成的过拟合问题:
如果完全依赖手里的数据集 D ,则训练出来的模型则会对训练数据表现得非常好(偏差小),但是对数据集 D 之外的数据,即新数据,表现得不好(过拟合);
若限制模型对数据集 D 的依赖,添加惩罚(正则项),则模型会增加了模型对数据扰动的抵抗能力(模型稳定性),但反过来又限制了模型自身的稳定性(偏差变大)。