CS229 Lecture 9
课程要点
学习理论
偏差与方差

就上面的三幅函数与数据的拟合图像来说,左图明数据呈现出二次函数形式而拟合函数却是一次函数θ0+θ1x,未能拟合出数据的特征,因此会造成训练误差很大,进而泛化误差就更不可靠。处于欠拟合状态,有较高的偏差 (high bais)。而右图使用了y=θ0+θ1x+⋯+θ5x来拟合数据,可以看到数据点全都在函数图像上,但是单单看数据点呈现出的却是明显不是这么复杂的,因此右图明显过拟合了,会造成泛化无法较大。其实质为算法拟合输了数据中一些奇怪的特征,这些奇怪的特征仅仅存在于这批数据中,而非整个数据空间的分布状态。因此如果再抽取一批数据可能会拟合出于5次多项式不同的函数,泛化误差过大。被称为高方差(high variance)。而中间的图恰恰处于两者之间,可能会拥有更好的泛化能力。
对于线性分类问题,有算法:
hθ(x)=g(θTx)
g(z)=1{x≥0} y∈{0,1}
S={(x(i),y(i))}i=1m (x(i),y(i))∼IIDD
hθ(x)的训练误差被定义为:
ε^(h)=i=1∑m1{hθ(x(i))̸=y(i)}
ERM(empirical risk minimization)
对于函数的参数可行解的范围有很多,怎么选取一个最好的,其中一个方法就是最小化训练误差:
θ^=argminε^(hθ)
这个过程就被称为经验风险最小化(ERM),最后得出的结果h^=hθ^,经验风险最小化是一种最基础的学习算法。其实我们学习了一组参数θ,其实也就相当于学习到了一个h。
现在定义假设类 (hypothesis class) H为一系列分类器:
H={hθ0:hθ(x)=1{θTx≥0},θ∈Rn+1}
ERM被定义为:
h^=argh∈Hminε^(h)
h的泛化误差被定义为:
ε(h)=p(x,y)∼D(h(x)̸=y)
为何最小化训练误差就可以保证泛化误差也很小,为了后续的证明引入两个定理:
定理一:Union Bound
有A1,A1,⋯Ak 共k个事件,这k个事件并不一定是独立的,那么这k个事件任何一个发生的概率为:
p(A1UA2U⋯UAk)≤p(A1)+p(A2)+⋯+p(Ak)
定理二:Hoeffding inequality
假设Z1,Z2,⋯,Zm是m个独立同分布(IID)的属于伯努利(Bernoulli)分布的随机变量,即p(Zi=1)=ϕ,p(Zi=0)=1−ϕ,定义ϕ^=m1∑i=1mZi为随机变量的均值,存在γ>0,那么有:
p(∣ϕ−ϕ^∣>γ)≤2exp(−2γ2m)
上面定理中使用均值来估计ϕ就类似于以频率估计概率。上面式子说明只要m很大,那么ϕ^于真实的ϕ的具体就不会相差太远。

上图大概是ϕ^的分布(不要在意坐标轴),当增加训练样本时ϕ^的分布会由灰色变为黑色线。可以看到样本越多那么∣ϕ−ϕ^∣≤γ的概率越大。
有限H的情形:
假设H={h1,h2,⋯,hk}共k的假设,H中的每个函数将X映射到{0,1}。定义h^=arghi∈Hminε^S(hi),为了达到证明如果训练误差很小,那么泛化误差也很小的目的,我们的证明策略为:
- 证明ε^≈ε
- 证明ε^有上界
对于一个固定hj∈H,定义Zj=1{hj(x(i))̸=y(i)}。其中样本Zj都是独立同分布的随机变量。对于一个样本Zi,那么p(Zi=1)=ε(h),训练误差可以被写为:
ε^(hi)=m1∑j=1mZj
根据前面提到的Hoeffding不等式有:
p(∣ε^(hi)−ε(hi)∣>γ)≤2exp(−2γ2m)
通过上式可知,如果m很大,那么训练误差和泛化误差会很接近。当然这只是对hi的一个保证,我们要证明对于所有的h∈H都成立。
现在定义事件Ai为∣ε^(hi)−ε(hi)∣>γ。我们已经知道对于任意的一个事件Ai有p(Ai)≤2exp(−2γ2m),因此使用联合边界定理有:
p(∃hj∈H∣ε^(hi)−ε(hi)∣>γ)=p(A1UA2U⋯UAk)≤p(A1)+p(A2)+⋯+p(Ak)≤2kexp(−2γ2m)
上式两侧用1减有:
p(¬∃hj∈H∣ε^(hi)−ε(hi)∣>γ)=p(∀hi∈H∣ε^(hi)−ε(hi)∣≤γ)≥1−2kexp(−2γ2m)
因此有1−2kexp(−2γ2m)的概率说对于所有的h∈H,ε^(h)在ε(h)的γ领域内。因为这个边界对于所有的h∈H都成立,因此被称为一致性收敛。
根据m,γ,误差三者之间的关系,如果知道γ,σ就可以求解需要的样本数m。其中σ=2kexp(−2γ2m)。经推导有:
m≥2γ21logσ2k
即只要m超过2γ21logσ2k对于所有的h∈H就有大于1−σ的概率有∣ε^(hi)−ε(hi)∣≤γ。
上面的m被称为样本复杂度边界
同理可以根据m,σ求解γ。固定m,σ在1−σ的概率下,可以得到∀h∈H有∣ε^(hi)−ε(hi)∣≤2m1logσ2k。
假设∀h∈H∣ε^(hi)−ε(hi)∣≤γ,令h^=argh∈Hminε^(h),我们能得到什么?
定义h∗=argh∈Hminε(h),是在H中最好的假设。有:
ε(h^)≤ε^(h^)+γ≤ε^(h∗)+γ≤ε(h∗)+2γ
不等式1,3成立在于运用了统一收敛,不等式2成立是因为h^是训练误差最小的h,而h∗是泛化误差最小的,因此对于任意的h有ε^(h^)≤ε^(h)。
定理:
∣H∣=k,将m,σ固定至少有1−σ的概率有:
ε(h^)≤(h∈Hminε(h))+22m1logσ2k
如果H⟶H′并且H′⊇H,由于函数变多了,那么上式第一项会减小,而第二项会变大。第一项对应于前面讲的偏差而后一项对应于前面说的方差。

上图横轴代表模型复杂度即(多项式的次数,或者说H的大小),纵轴代表误差,灰色的线表示训练误差,而黑色实线表示泛化误差,可以知道模型过于简单容易出现欠拟合,而模型过于复杂则会出现过拟合。
推论:
∣H∣=k,将γ,σ固定,对于ε(h^)≤h∈Hminϵ(h)+2γ,在大于1−σ的概率下满足:
m≥2γ21logσ2k=O(γ21logσ2k)。