机器学习和数据挖掘(8):偏见方差权衡
偏见方差权衡
偏见和方差
我们一直试图在近似和泛化之间找到一个平衡。
我们的目标是得到一个较小的
VC维分析使用的是泛化边界来进行泛化。根据公式
偏见方差则是将
-
H 能够在何种程度上近似f ; - 我们如何能够在何种程度上得到这个
h∈H
从Eout 开始
我们对于特定的数据集得到的近似函数通过加一个上标的方式来表示,即
那么根据上式,我们要得到泛化的表现,就要去除特定的
上式的第二步可以这样转化的原因是(我个人理解),在通过积分求期望的时候,当积分要素非负,积分的顺序与积分的结果无关。
所以我们只需要关注于
平均假设
我们固定住某个特定的
平均假设不是一个真实的值,因为我们并不会这样使用和计算,但是在分析中会用到。平均假设表示为
代入可得
最终可将式子变化为
第一部分表示:离我们在假设集中得到最好的假设有多大的距离,对于平均假设,我们不确定它是不是真的属于某个假设集,也不知道它是不是真的非常好,但是它作为多个假设集的平均,我们姑且认为它是一个不错的假设集;第二部分则表示:我们提出的最好的假设离我们的目标函数还有多远的差距。
那么第一部分就是方差,第二部分就是偏移。
我们再将上面所推导的内容代入会原式子
我们可以看得出来,当假设集变大,
VC维 VS 偏移方差
在本例子中提供了目标函数
提供了两个假设
对于两个假设集,我们可以得到如下的图像
我们随机在目标函数上找两个点,然后我们将目标函数隐去,再进行学习,从而得到两个近似函数;而下图中所得到的近似函数会受到数据集的影响
当我们取得无数个点并得到近似函数时,左图表示其频度,右图表示其均值与方差,两个假设集的表现如下
将两个假设集放在一起进行量化比较
偏移方差之所以可以以横轴作为分界,是因为
关于VC维和偏移方差红色部分的大小问题,其实并没有什么影响,他们展现出来的规律都是一样的。
学习曲线
逻辑回归
当我们将噪音考虑进去之后,目标函数就变为了
数据集为
而逻辑回归得到的近似函数权重为
我们如果将他们之间的误差评分平方值相加并取得均值,我们将会得到样本误差
在处理样本外误差的时候,我们将使用相同的输入,但是使用不同的噪音,这样会跟方便我们去理解问题:
图7
我们不断地采样训练,那么最终的结果会接近于
从上图可以知道,我们可以得到的最好的近似误差为
样本误差的期望则是
泛化误差的期望为