【机器学习】方差和偏差

高方差、低偏差对应过拟合。表示训练数据集和测试数据集上模型所表现出的泛化性能差别较大。

低方差、高偏差对应欠拟合。

方差是多个数据集训练出的多个模型间预测值的比较；偏差单个数据集中单个模型预测值与真实值之间的差异。

对一个学习算法除了通过实验估计其泛化性能，还需要更好的了解泛化能力的原因，偏差-方差分解时解释算法泛化性能的一种重要的工具。

　　对于测试样本x，令y_D为x在数据集中的标记（可能存在噪声导致标记值和真实值不同），y为x的真实值，f(x;D)在训练集D上学得模型f在x上的输出。以回归任务为例：

　　学习算法的期望预测为：

　　【机器学习】方差和偏差

　　就是所有预测值的平均值；

　　产生的方差的计算为：

　　【机器学习】方差和偏差

　　方差就是表示在某测试数据集上的方差，都是测试数据集上的预测值之间的关系，与真实的值并没有关系

　　对于噪声定义为：

　　【机器学习】方差和偏差

　　标记值与真实值差平方的期望。

　　偏差则定义成期望输出与真实标记的差别：

　　【机器学习】方差和偏差

　　为了便于讨论，假设噪声的期望为0.通过简单的多项式展开与合并对算法的期望泛化误差进行分解：

　　【机器学习】方差和偏差

　　偏差度量了学习算法的期望预测与真实结果的偏离程度，刻画描述了算法本身对数据的拟合能力，也就是训练数据的样本与训练出来的模型的匹配程度；方差度量了训练集的变化导致学习性能的变化，描述了数据扰动造成的影响；噪声则表示任何学习算法在泛化能力的下界，描述了学习问题本身的难度。偏差方差分解表示了泛化性能有三者决定。

模型越复杂，偏差就越小，而模型越简单，偏差就越大，方差和偏差是按下面的方式进行变化的:

【机器学习】方差和偏差

当方差和偏差加起来最优的点，就是我们最佳的模型复杂度。

转载自：https://www.cnblogs.com/daguankele/p/6561419.html

【机器学习】方差和偏差

相关推荐