机器学习 -- 多项式回归(Ⅵ 偏差方差均衡 Bias Variance Trade off)
一. 偏差与方差
偏差描述样本偏离实际值的情况,方差描述样本的分布疏密情况。下图中红色点为真值,蓝色点为样本点,描绘了不同偏差和方差分布情况:
1. 一般来说,模型的误差 = 方差(Bias) + 偏差(Variance) + 不可避免的误差(例如测量带来的精度损失、噪声等)
2. 导致偏差和方差的因素:
导致偏差的原因,可能是对模型的假设是错误的,例如用线性的假设去预测非线性数据,或者采用的特征和预测其实没有关系。在机器学习中,一般不会出现采取的特征和预测毫无相关的情况,事实上导致高偏差的原因主要是欠拟合。
导致方差的原因,通常是因为模型太过复杂,一点的数据抖动都将会影响到结果,过拟合是导致高方差的主要原因。
3. 非参数学习和参数学习的偏差和方差
(1)非参数学习通常都是高方差,因为不对数据进行任何的假设。例如KNN、决策树,高度依赖样本数据。
(2)参数学习通常都是高偏差算法,因为对数据具有极强的假设,例如线性回归。
4. 偏差和方差通常是相互矛盾的,降低偏差将会提高方差,降低方差将会提高偏差。在算法领域,主要的挑战来自方差。
5. 解决高方差的通常首都按:降低模型复杂度、减少数据维度,降噪;增加样本数;使用验证集、模型正则化等。
二. 模型泛化
1. 模型正则化Regularization:限制参数的大小。
下图是我们之前使用多项式回归过拟合一个样本的例子,可以看到这条模型曲线非常的弯曲,而且非常的陡峭,可以想象这条曲线的一些θ系数会非常的大。模型正则化需要做的事情就是限制这些系数的大小。
2. 模型正则化的目标