Preface

从一篇博客开始的学习理论部分主要是介绍面对实际问题时我们应该选择什么模型，以及当我们使用的模型不能达到预期成果时应该怎么办。
主要内容：
Bias/Variance Trade-off（偏差/方差权衡）
Empirical Risk Minimization (ERM，经验风险最小化)
The case of finite H（H集合有限的情况）
The case of infinite H（H集合无限的情况）

Bias/Variance Trade-off

Andrew Ng机器学习课程笔记（九）之学习理论之经验风险最小化
在上述三图中，第一幅图表示的是欠拟合状态，第二幅图表示的是较好的拟合状态，第三幅图表示的是过拟合状态。
第三幅图使用线性回归 $y = θ_{0} + θ_{1} x + θ_{2} x + θ_{3} x + θ_{4} x + θ_{5} x$ 建立的模型，在训练集中可以准确的预测 $y$ 。但是，无法使用线性回归 $y = θ_{0} + θ_{1} x + θ_{2} x + θ_{3} x + θ_{4} x + θ_{5} x$ 来准确预测训练集之外的数据。换句话说，这个模型没有很好的泛化能力。因此，模型的泛化误差(generalization error)不仅包括其在样本上的期望误差，还包括在训练集上的误差。

通常，在偏倚和方差之间，这样一种规律：如果模型过于简单，其具有大的偏倚，而如果模型过于复杂，它就有大的方差。调整模型的复杂度，建立适当的误差模型，就变得极其重要了。

Empirical Risk Minimization

Step1：两个定理

首先我们介绍两个定理：

定理一：一致限(The union bound)：假设 $A_{1}, A_{2} . . . A_{k}$ 是 $k$ 个不同的事件，那么 $P (A_{1} \cup A_{2} \cup . . . \cup A_{k}) \leq P (A_{1}) + P (A_{2}) + . . . + P (A_{k})$ 。你可以画一个文氏图去理解他。

定理二：Hoeffding 不等式(Hoeffding inequality)：假设 $Z_{1}, Z_{2} . . . Z_{m}$ 是 $m$ 个独立同分布（IID）服从伯努利分布的变量，参数为 $ϕ$ 。即 $\hat{ϕ} = (1 / m) \sum_{i = 1}^{m} Z_{i}$ ， $\hat{ϕ}$ 也是随机变量，对于任意的 $γ > 0$ ，则有 $P (| ϕ - \hat{ϕ} | > γ) \leq 2 e x p (- 2 γ^{2} m)$ 。

Step2：假设条件

这里我们讨论线性回归中二分类问题 $h_{θ} (x) = g (θ^{T} x), g = 1 {z \geq 0}, y = {0, 1}$ ，同时对于样本集 $S = {(x^{(i)}, y^{(i)})}_{i = 1}^{m}$ 中的任意样本 ${(x^{(i)}, y^{(i)})}$ 满足IID（独立同分布）。
注： $g = 1 {z \geq 0}$ 为指示器函数，当 $z \geq 0$ 时， $g = 1$ ；当 $z < 0$ 时， $g = 0$ 。

Step3：Training Error（训练误差）

对于一个假设函数 $h_{θ} (x) = g (θ^{T} x)$ ，定义训练误差（training error）（也称为经验风险（empirical risk）或经验误差(empiriacal error)）为：

$\begin{matrix} (1) & \hat{ε} (h_{θ}) = ε (h_{θ})_{S} = \frac{1}{m} \sum_{i = 1}^{n} 1 {h (x^{(i)}) \neq y^{(i)}} \end{matrix}$

上述公式 $ε (h_{θ})_{S}$ 表示为依赖于训练集 S 的训练误差为假设错误分类的训练样本数之和与训练样本集总数的比值。

所有我们定义经验风险最小化（empirical risk mininmization，ERM）为：

$\begin{matrix} (2) & \hat{θ} = arg {min}_{θ} ε (h_{θ})_{S} \end{matrix}$

Step4：Generalization Error（泛化误差）

$\begin{matrix} (3) & ε (h_{θ}) = P_{(x, y) \sim D} (h (x) \neq y) \end{matrix}$

这里得到的是一个概率，表示通过特定的分布D生成的样本（x，y）中的y与通过预测函数h(x)生成的结果不同的概率。

这个误差是我们理论上计算出来的误差，一般的在统计中带有“ ^”表示的估计量，估计的意思就是我们通过样本来计算这个变量的值。反之，一般理论值就不带“ ^ ”。
这样一来我们就可以将

Step5：假设类 $H$

定义假设类 $H$ 为：由所有假设构成的集合，或者说由所有线性分类器构成的集合。即，
$\begin{matrix} (4) & H = {h_{θ} : h_{θ} = 1 {θ^{T} x \geq 0}, θ \in R^{n + 1}} \end{matrix}$

Step6：经验风险最小化ERM

所以我们将ERM从原来的对于参数的选取重新定义为从假设类 $H$ 中选取一个假设函数：
$\begin{matrix} (5) & \hat{h} = arg min_{h \in H} \hat{ε} (h_{θ})_{S} \end{matrix}$

The case of finite H

定义假设集 $H$ 为 $H = {h_{1}, h_{2}, . . ., h_{m}}$ 。
所以ERM会选择最小训练误差集的假设： $\hat{h} = arg min_{h \in H} \hat{ε} (h_{θ})_{S}$ 。

为了最小训练误差和泛化误差的差值是有上界的，即如果训练误差很小，那么泛化误差也不会太大，我们需要完成两个步骤：
首先，证明训练误差 $\hat{ε}$ 是对泛化误差 $ε$ 的一个很好的估计， $\hat{ε} \approx ε$ 。
其次，证明泛化误差存在上界。

最小训练误差和泛化误差的差值是有上界

证明训练误差是对泛化误差的一个很好的估计

Step1：从假设集 $H = {h_{1}, h_{2}, . . ., h_{m}}$ 中选取 $h_{j}$ ，且暂时只考虑
$h_{j}$ 。
Step2：定义 $Z_{i} = 1 {h_{j} (x^{(i)}) \neq y^{(i)}}$ ，表示第 $i$ 个样本是否被错误分类。因为 $Z_{i} \in {0, 1}$ ，所以 $Z_{i}$ 明显满足贝努利分布。
所以由定义可知 $P (Z_{i} = 1) = ε (h_{j})$ 。同时，由于样本集满足IID，所以 $Z_{i}$ 也满足IID。
所以训练误差可以表示为：
$\begin{matrix} (6) & \hat{ε} (h_{j}) = \frac{1}{m} \sum_{i = 1}^{n} 1 {h (x^{(i)}) \neq y^{(i)}} = \frac{1}{m} \sum_{i = 1}^{n} Z_{i} \end{matrix}$
$Z$ 是服从伯努利分布的，他的期望是 $ε (h_{i})$ ，利用Hoeffding不等式就可以得到下面的式子：

$\begin{matrix} (7) & P (| ε (h_{j}) - \hat{ε} (h_{j}) | > γ) \leq 2 e^{- 2 γ^{2} m} \end{matrix}$

从上式可以看出，对于特定的的，当m很大时，训练误差 $\hat{ε} (h_{j})$ 和泛化误差 $ε (h_{j})$ 很接近的概率很大。

证明泛化误差存在上界

定义随机事件 $A_{j}$ 为 $| ε (h_{j}) - \hat{ε} (h_{j}) | > γ$ ，所以有 $P (A_{j}) \leq 2 e^{- 2 γ^{2} m}$ 。
所以由一致限(The union bound)，可以证明 $P (\exists h_{j} \in H, | ε (h_{j}) - \hat{ε} (h_{j}) | > γ)$ 。

用1减去上式的两边可得：

所以，得到一致收敛性（a uniform conversions result）：
对假设集 $H$ 中任意一个假设函数 $h$ 在不小于 $1 - 2 e^{- 2 γ^{2} m}$ 的概率下，训练误差 $\hat{ε}$ 与泛化误差 $ε$ 之间的差距将在 $γ$ 之内。
所以随着训练集大小m的增大，理论误差和训练误差在接近，并且是依一定的概率。我们也想知道给了一定的误差概率之后，我们的m到底取多大是合适的。

选择合适的m——样本复杂度

现在我们首先给定 $γ$ 和令 $δ = 2 e^{- 2 γ^{2} m}$ 。所以我们可以得到一致收敛性的另外一种形式：

$\begin{matrix} (8) & m \geq \frac{1}{2 γ^{2}} \log \frac{2 k}{δ} \end{matrix}$

所以，得到样本复杂度（algorithm’s sample complex）：
当训练集总数 $m \geq \frac{1}{2 γ^{2}} \log \frac{2 k}{δ}$ ，至少在概率 $1 - δ$ 下， $\forall h_{i} \in H$ , $| ε (h_{i}) - \hat{ε} (h_{i}) | \leq γ$ 成立。也就是说，如果我们想通过样本对总体有个较为准确的估计，我们需要采集最小的样本量是多少。

注： $\forall k, \log k \leq 30$ 。

选择合适的 γ ——误差界限

现在我们首先给定 $m$ 和令 $δ = 2 e^{- 2 γ^{2} m}$ 。所以我们可以得到：
在至少在概率 $1 - δ$ 下， $\forall h_{i} \in H$ , $| \hat{ε} (h) - ε (h) | \leq \sqrt{\frac{1}{2 m} l o g \frac{2 k}{δ}} = γ$ 成立。

假设一致收敛成立，那么 $\forall h_{i} \in H$ , $| ε (h_{i}) - \hat{ε} (h_{i}) | \leq γ$ ，可以得到训练误差 $\hat{ε}$ 与泛化误差 $ε$ 之间的差距：
使用ERM假设训练误差最小值： $\hat{h} = arg min_{h \in H} \hat{ε} (h)$
定义泛化误差最小值： $h^{*} = arg min_{h \in H} ε (h)$ 。
同时，由定义ERM可以得到 $\hat{h} \leq h^{*}$
所以：

\begin{aligned} ε (\hat{h}) & \leq \hat{ε} (\hat{h}) + γ \\ \leq \hat{ε} (h^{*}) + γ \\ \leq ε (h^{*}) + 2 γ \end{aligned}

根据上面的推导我们得出以下结论：
定理 1：
假设有一个有限假设集 $H = {h_{1}, h_{2}, . . ., h_{k}}$ ， $| H | = k$ 。固定 $m$ 和 $δ$ ，在至少在概率 $1 - δ$ 时， $ε (\hat{h}) \leq min_{h \in H} ε (h) + 2 \sqrt{\frac{1}{2 m} l o g \frac{2 k}{δ}}$ 。

由定理1得出以下推论：
如果我们扩充假设类集合的范围，即由原来的假设类 $H$ 扩充为即 $H^{'}$ （例如由我们最初假设的线性函数改变为二次函数），则定理1结论第一项 $min_{h \in H} ε (h)$ （可视为偏差）的值会变小，因为扩充假设类集，可能有更好的假设函数使得最小泛化误差下降；第二项（可视为方差）的值会增大，因为k的值增加了。
因此，如果假设类过小，则第一项过大，会造成欠拟合，通过扩充假设类，可以使得第一项的值下降，但是第二项值上升，如果扩充过大，会造成过拟合，同样会增加泛化误差。因此要想得到最小的泛化误差，需要在选择合适的，即在方差和偏差之间进行权衡。

推论1：
假设有一个有限假设集 $H = {h_{1}, h_{2}, . . ., h_{k}}$ ， $| H | = k$ 。固定 $γ$ 和 $δ$ ，在至少在概率 $1 - δ$ 时，满足 $ε (\hat{h}) \leq min_{h \in H} ε (h) + 2 γ$ ， $m$ 应该满足： $m \geq \frac{1}{2 γ^{2}} l o g \frac{2 k}{δ} = O (\frac{1}{γ^{2}} l o g \frac{k}{δ})$ 。

The case of infinite H

在这里我们将介绍关于假设类 $H$ 为无先限集的情况。首先我们先给出一种非正式的直观表达，接着在正式的通过公式推导证明。

Informal

我们还是以线性分类为例，现在假设 $H$ 中的假设函数 $h_{i}$ 由d个参数构成。同时由于在计算机中实数我们使用 double 类型表示，那么，这d个实数需要用64d个2进制位表示。所以 $k = | H | = 2^{64 d}$ 。所以由推论1我们可以得到：
假设有一个有限假设集 $H = {h_{1}, h_{2}, . . ., h_{k}}$ ， $| H | = k$ 。固定 $γ$ 和 $δ$ ，在至少在概率 $1 - δ$ 时，满足 $ε (\hat{h}) \leq min_{h \in H} ε (h) + 2 γ$ ， $m$ 应该满足： $m \leq O (\frac{1}{γ^{2}} l o g \frac{2^{64 d}}{δ}) = O (\frac{d}{γ^{2}} l o g \frac{1}{δ}) = O_{γ, δ} (d)$ 。

Formal

分散：集合 $S = {x^{(i)}, . . ., x^{(d)}}$ ，如果假设集 $H$ 中存在 $h_{i}$ 可以将S中的所有点按标签分开 $({y (1), . . ., y (d)}$ ，我们就说 $H$ 可以分散S。
解释：
例如对于一个集合 $S = {x^{(1)}, x^{(2)}, x^{(3)}}$ ，如果对于假设集 $H$ 中存在 $h_{i}$ 可以将S完美分开（训练误差为0）。如下图所示：
Andrew Ng机器学习课程笔记（九）之学习理论之经验风险最小化
我们就称 $H$ 可以分散S。

Vapnik-Chervonenkis dimension（VC维）：给定一个假设集合 $H$ ，这个 $H$ 可以分散集合S的最大个数为VC维，记为 $V C (H) = d$ ，如果H可以将任意的S分散，我们就说这个H的VC为无穷大，记为 $V C (H) = \infty$ 。
对于上面的例子，其VC维 $V C (H) = 3$ 。（更一般的，n维线性分类器最多只能给n+1个点进行无误差分类，其VC维 $V C (H) = n + 1$ ）

下面有两个非常著名且重要的定理：
定理2：给定一个假设集 $H$ ，并且 $V C (H) = d$ ，在至少满足 $1 - δ$ 这个概率的情况下，我们可以在 $H$ 中找到一个 $h$ 满足下面这个不等式：

$\begin{matrix} (9) & | ε (h) - \hat{ε} (h) | \leq O (\sqrt{\frac{d}{m} l o g \frac{m}{d} + \frac{1}{m} l o g \frac{1}{δ}}) \end{matrix}$

所以：

$\begin{matrix} (10) & ε (\hat{h}) \leq ε (h^{*}) + O (\sqrt{\frac{d}{m} l o g \frac{m}{d} + \frac{1}{m} l o g \frac{1}{δ}}) \end{matrix}$

所以在VC维确定的情况下，且训练集m足够大时，训练误差 $\hat{ε}$ 和泛化误差 $ε$ 收敛。

推论2：对于 $H$ 中的所有h， $| ε (h) - ε^{(} h) | \leq γ$ 至少以 $1 - δ$ 的概率成立，所以 $m = O_{γ, δ} (d)$ 。

直观理解：如果需要确保训练误差和泛化误差的差值在一个给定的范围内，并且发生的概率不低于 $1 - δ$ ，需要的样本数量m和假设集的VC维大小d呈线性相关。

深入理解：
样本的复杂度的上界由VC维确定（一般而言，VC维和模型参数数量呈线性正相关，样本数量m和模型参数数量呈线性正相关。主流如此，但依然存在一些特例）；
样本的复杂度的下界由VC维确定（训练样本的数目的阶和VC维相同，在最坏情况下，样本的复杂度的下界也是VC维）；
对于推论2的深入理解我还有些疑问，这只是记下了老师的话，望哪位大佬可以解释一下。

Andrew Ng机器学习课程笔记（九）之学习理论之经验风险最小化