CS229 Lecture 9

CS229 Lecture 9


课程要点

学习理论


偏差与方差

CS229 Lecture 9
就上面的三幅函数与数据的拟合图像来说,左图明数据呈现出二次函数形式而拟合函数却是一次函数θ0+θ1x\theta_0+\theta_1x,未能拟合出数据的特征,因此会造成训练误差很大,进而泛化误差就更不可靠。处于欠拟合状态,有较高的偏差 (high bais)。而右图使用了y=θ0+θ1x++θ5xy=\theta_0+\theta_1x+\cdots+\theta_5x来拟合数据,可以看到数据点全都在函数图像上,但是单单看数据点呈现出的却是明显不是这么复杂的,因此右图明显过拟合了,会造成泛化无法较大。其实质为算法拟合输了数据中一些奇怪的特征,这些奇怪的特征仅仅存在于这批数据中,而非整个数据空间的分布状态。因此如果再抽取一批数据可能会拟合出于5次多项式不同的函数,泛化误差过大。被称为高方差(high variance)。而中间的图恰恰处于两者之间,可能会拥有更好的泛化能力。


对于线性分类问题,有算法:
hθ(x)=g(θTx)h_{\theta}(x)=g(\theta^Tx)

g(z)=1{x0}g(z)=1\{x\ge0\}    y{0,1}y\in\{0,1\}

S={(x(i),y(i))}i=1mS=\{(x^{(i)},y^{(i)})\}_{i=1}^{m}     (x(i),y(i))IIDD(x^{(i)},y^{(i)})\stackrel{IID}\sim \mathcal{D}

hθ(x)h_\theta(x)的训练误差被定义为:
ε^(h)=i=1m1{hθ(x(i))y(i)}\hat\varepsilon(h) = \sum_{i=1}^{m} 1\{h_{\theta}(x^{(i)})\neq y^{(i)}\}


ERM(empirical risk minimization)

对于函数的参数可行解的范围有很多,怎么选取一个最好的,其中一个方法就是最小化训练误差:

θ^=arg  minε^(hθ)\hat\theta=arg\,\,min\hat\varepsilon(h_{\theta})

这个过程就被称为经验风险最小化(ERM)(ERM),最后得出的结果h^=hθ^\hat h =h_{\hat\theta},经验风险最小化是一种最基础的学习算法。其实我们学习了一组参数θ\theta,其实也就相当于学习到了一个hh

现在定义假设类 (hypothesis class) H\mathcal{H}为一系列分类器:
H={hθ0:hθ(x)=1{θTx0},θRn+1}\mathcal{H}=\{h_{\theta_0}:h_{\theta}(x)=1\{\theta^T x\ge0\},\theta\in R^{n+1}\}

ERM被定义为:

h^=arg  minhHε^(h)\hat h =arg\,\,\mathop {\min }\limits_{h\in\mathcal{H}}\hat\varepsilon(h)

hh的泛化误差被定义为:

ε(h)=p(x,y)D(h(x)y)\varepsilon(h)=p(x,y)\sim\mathcal{D}(h(x)\neq y)


为何最小化训练误差就可以保证泛化误差也很小,为了后续的证明引入两个定理:

定理一:Union Bound

A1,A1,AkA_1,A_1,\cdots A_kkk个事件,这kk个事件并不一定是独立的,那么这kk个事件任何一个发生的概率为:

p(A1UA2UUAk)p(A1)+p(A2)++p(Ak)p(A_1UA_2U\cdots UA_k)\le p(A_1)+p(A_2)+\cdots+p(A_k)

定理二:Hoeffding inequality

假设Z1,Z2, ,ZmZ_1,Z_2,\cdots,Z_mmm个独立同分布(IID)(IID)的属于伯努利(Bernoulli)(Bernoulli)分布的随机变量,即p(Zi=1)=ϕp(Z_{i}=1)=\phi,p(Zi=0)=1ϕp(Z_{i}=0)=1-\phi,定义ϕ^=1mi=1mZi\hat\phi=\frac{1}{m}\sum_{i=1}^{m}Z_{i}为随机变量的均值,存在γ>0\gamma>0,那么有:

p(ϕϕ^>γ)2exp(2γ2m)p(|\phi-\hat\phi|>\gamma)\le 2exp(-2\gamma^{2}m)

上面定理中使用均值来估计ϕ\phi就类似于以频率估计概率。上面式子说明只要mm很大,那么ϕ^\hat\phi于真实的ϕ\phi的具体就不会相差太远。

CS229 Lecture 9

上图大概是ϕ^\hat\phi的分布(不要在意坐标轴),当增加训练样本时ϕ^\hat\phi的分布会由灰色变为黑色线。可以看到样本越多那么ϕϕ^γ|\phi-\hat\phi|\le\gamma的概率越大。


有限H\mathcal{H}的情形:

假设H={h1,h2, ,hk}\mathcal{H}=\{h_1,h_2,\cdots,h_k\}kk的假设,H\mathcal{H}中的每个函数将X\mathcal{X}映射到{0,1}\{0,1\}。定义h^=arg  minhiHε^S(hi)\hat h=arg\,\,\mathop {\min }\limits_{h_i\in\mathcal{H}}\hat\varepsilon_{S}(h_i),为了达到证明如果训练误差很小,那么泛化误差也很小的目的,我们的证明策略为:

  1. 证明ε^ε\hat\varepsilon\approx\varepsilon
  2. 证明ε^\hat\varepsilon有上界

对于一个固定hjHh_j\in\mathcal{H},定义Zj=1{hj(x(i))y(i)}Z_j=1\{h_j(x^{(i)})\neq y^{(i)}\}。其中样本ZjZ_j都是独立同分布的随机变量。对于一个样本ZiZ_i,那么p(Zi=1)=ε(h)p(Z_i=1)=\varepsilon(h),训练误差可以被写为:

ε^(hi)=1mj=1mZj\hat\varepsilon(h_i)=\frac{1}{m}\sum_{j=1}^{m}Z_j

根据前面提到的Hoeffding不等式有:

p(ε^(hi)ε(hi)>γ)2exp(2γ2m)p(|\hat\varepsilon(h_i)-\varepsilon(h_i)|>\gamma)\le 2exp(-2\gamma^{2}m)

通过上式可知,如果m很大,那么训练误差和泛化误差会很接近。当然这只是对hih_i的一个保证,我们要证明对于所有的hHh\in\mathcal{H}都成立。

现在定义事件AiA_iε^(hi)ε(hi)>γ|\hat\varepsilon(h_i)-\varepsilon(h_i)|>\gamma。我们已经知道对于任意的一个事件AiA_ip(Ai)2exp(2γ2m)p(A_i)\le 2exp(-2\gamma^2m),因此使用联合边界定理有:

p(hjH  ε^(hi)ε(hi)>γ)=p(A1UA2UUAk)p(A1)+p(A2)++p(Ak)2kexp(2γ2m)p(\exists h_j\in\mathcal{H}\,\,|\hat\varepsilon(h_i)-\varepsilon(h_i)|>\gamma)=p(A_1UA_2U\cdots UA_k)\le p(A_1)+p(A_2)+\cdots+p(A_k)\le 2kexp(-2\gamma^2m)

上式两侧用1减有:

p(¬hjH  ε^(hi)ε(hi)>γ)=p(hiH  ε^(hi)ε(hi)γ)12kexp(2γ2m)p(\lnot\exists h_j\in\mathcal{H}\,\,|\hat\varepsilon(h_i)-\varepsilon(h_i)|>\gamma)=p(\forall h_i\in\mathcal{H}\,\,|\hat\varepsilon(h_i)-\varepsilon(h_i)|\le \gamma)\ge1-2kexp(-2\gamma^2m)

因此有12kexp(2γ2m)1-2kexp(-2\gamma^2m)的概率说对于所有的hHh\in\mathcal{H},ε^(h)\hat\varepsilon(h)ε(h)\varepsilon(h)γ\gamma领域内。因为这个边界对于所有的hHh\in\mathcal{H}都成立,因此被称为一致性收敛

根据m,γ,m,\gamma,误差三者之间的关系,如果知道γ,σ\gamma,\sigma就可以求解需要的样本数mm。其中σ=2kexp(2γ2m)\sigma=2kexp(-2\gamma^2m)。经推导有:

m12γ2log2kσm\ge\frac{1}{2\gamma^2}log{\frac{2k}{\sigma}}

即只要mm超过12γ2log2kσ\frac{1}{2\gamma^2}log{\frac{2k}{\sigma}}对于所有的hHh\in \mathcal{H}就有大于1σ1-\sigma的概率有ε^(hi)ε(hi)γ|\hat\varepsilon(h_i)-\varepsilon(h_i)|\le\gamma

上面的mm被称为样本复杂度边界

同理可以根据m,σm,\sigma求解γ\gamma。固定m,σm,\sigma1σ1-\sigma的概率下,可以得到hH\forall h\in \mathcal{H}ε^(hi)ε(hi)12mlog2kσ|\hat\varepsilon(h_i)-\varepsilon(h_i)|\le\sqrt{\frac{1}{2m}log\frac{2k}{\sigma}}


假设hH  ε^(hi)ε(hi)γ\forall h\in\mathcal{H}\,\,|\hat\varepsilon(h_i)-\varepsilon(h_i)|\le \gamma,令h^=arg  minhHε^(h)\hat h=arg\,\,\mathop {\min }\limits_{h\in\mathcal{H}}\hat\varepsilon(h),我们能得到什么?

定义h=arg  minhHε(h)h^{*}=arg\,\,\mathop {\min }\limits_{h\in\mathcal{H}}\varepsilon(h),是在H\mathcal{H}中最好的假设。有:

ε(h^)ε^(h^)+γε^(h)+γε(h)+2γ\varepsilon(\hat{h})\le\hat\varepsilon(\hat{h})+\gamma\le\hat\varepsilon(h^*)+\gamma\le\varepsilon(h^*)+2\gamma

不等式1,3成立在于运用了统一收敛,不等式2成立是因为h^\hat h是训练误差最小的hh,而hh*是泛化误差最小的,因此对于任意的hhε^(h^)ε^(h)\hat\varepsilon(\hat h)\le\hat\varepsilon(h)


定理

H=k|\mathcal{H}|=k,将m,σm,\sigma固定至少有1σ1-\sigma的概率有:

ε(h^)(minhHε(h))+212mlog2kσ\varepsilon(\hat h)\le(\mathop {\min }\limits_{h\in\mathcal{H}}\varepsilon(h))+2\sqrt{\frac{1}{2m}log\frac{2k}{\sigma}}

如果HH\mathcal{H}\longrightarrow\mathcal{H^{'}}并且HH\mathcal{H^{'}}\supseteq\mathcal{H},由于函数变多了,那么上式第一项会减小,而第二项会变大。第一项对应于前面讲的偏差而后一项对应于前面说的方差。

CS229 Lecture 9
上图横轴代表模型复杂度即(多项式的次数,或者说H\mathcal{H}的大小),纵轴代表误差,灰色的线表示训练误差,而黑色实线表示泛化误差,可以知道模型过于简单容易出现欠拟合,而模型过于复杂则会出现过拟合。

推论:

H=k|\mathcal{H}|=k,将γ,σ\gamma,\sigma固定,对于ε(h^)minhHϵ(h)+2γ\varepsilon(\hat h)\le \mathop {\min }\limits_{h\in\mathcal{H}} \epsilon(h)+2\gamma,在大于1σ1-\sigma的概率下满足:

m12γ2log2kσ=O(1γ2log2kσ)m\ge\frac{1}{2\gamma^2}log{\frac{2k}{\sigma}}=O(\frac{1}{\gamma^2}log\frac{2k}{\sigma})