AdaBoost详解

本博客内容摘自李航老师的《统计学习方法》，加以一些整理。

AdaBoost算法

假定给定一个二分类的训练数据集：

T = {(x_{1}, y_{1}), (x_{2}, y_{2}), . . ., (x_{N}, y_{N})}

其中，每个样本点由实力和标记组成。实例

x_{i} \in X \subseteq R^{n}

(表示实数),标记

y_{i} \in Y = {- 1, + 1}

,即有两种标签的数据，用

{- 1, + 1}

来表示这两种类别;

X

是实例空间，

Y

是标记集合。AdaBoost算法利用以下算法，从训练数据中学习一系列弱分类器或基本分类器，并将这些弱分类器线性组合成一个强分类器。

AdaBoost描述:
输入:训练数据集 $T = {(x_{1}, y_{1}), (x_{2}, y_{2}), . . ., (x_{N}, y_{N})}$ ，其中 $x_{i} \in X \subseteq R^{n}, y_{i} \in Y = {- 1, + 1}$ ;得到弱学习算法;
输出:最终分类器 $G (x)$

算法步骤:

(1)初始化训练数据的权值分布

D_{1} = (w_{11}, . . ., w_{1 i}, . . ., w_{1 N}), w_{1 i} = \frac{1}{N}, i = 1, 2, . . ., N (2.1)

D是用来描述各样本的权值分布的。

(2)对 $m = 1, 2, . . ., M$ ， $m$ 表示迭代的次数
(a)使用具有权值分布 $D_{m}$ 的训练数据集学习，得到基本分类器:

G_{m} (x) : X ⟶ {- 1, + 1}

(b)计算

G_{m}

在训练数据集上的分类误差率

e_{m} = P (G_{m} (x_{i}) \neq y_{i}) = \sum_{i = 1}^{N} w_{m i} I (G_{m} \neq y_{i}) (2.2)

其中

I (G_{m} \neq y_{i}) = {0, 1}

，当分类正确时，等于0;分类错误时，等于1;

G_{m} (x_{i})

表示第

m

轮得到的弱分类器

G_{m}

对第

i

个样本

x_{i}

的分类结果，

y_{i}

表示第

i

个样本的真实类别。注意计算误差率是用到了权重分布 $D$ 中的 $w_{m}$ 。
(c) 计算

G_{m} (x)

的系数

α_{m} = \frac{1}{2} l o g \frac{1 - e_{m}}{e_{m}} (2.3)

这里的对数是自然对数。可以发现，当错误率

e_{m}

越大时,

a_{m}

越小。这个参数将会用在集成阶段。
(d)更新训练数据集的权值分布

D_{m + 1} = (w_{m + 1, 1}, . . ., w_{m + 1, i}, . . ., w_{m + 1, N}) (2.4)

w_{m + 1, i} = \frac{w_{m i}}{Z_{m}} e x p (- α_{m} y_{i} G_{m} (x_{i})), i = 1, 2, . . ., N (2.5)

这里,

Z_{m}

是规范化因子，使得总的

w_{m + 1}

值和为1.

Z_{m} = \sum_{i = 1}^{N} w_{m i} e x p (- α_{m} y_{i} G_{m} (x_{i})) (2.6)

它使得

D_{m + 1}

成为一个概率分布。

(3)构建基本分类器的线性组合

f (x) = \sum_{m = 1}^{M} α_{m} G_{m} (x) (2.7)

错误率越低的弱分类器对应的 $α$ 值越大，使其在表决中起较大的作用。
得到最终的分类器

G (x) = s i g n (f (x)) = s i g n (\sum_{m = 1}^{M} α_{m} G_{m} (x)) (2.8)

对AdaBoost算法作如下说明:
步骤(1)假设训练数据集具有均匀的权值分布，即每个训练样本在基本分类器的学习中作用相同，这一假设保证第1步能够在原始数据上学习基本分类器 $G_{1} (x)$ .

步骤(2)AdaBoost反复学习基本分类器，在每一轮 $m = 1, 2, . . ., M$ 顺次地执行下列操作:
(a)使用当前分布 $D_{m}$ 加权的训练数据集，学习基本分类器 $G_{m} (x)$ .
(b)计算基本分类器 $G_{m} (x)$ 在加权训练数据集上的分类错误率:

e_{m} = P (G_{m} (x_{i}) \neq y_{i}) = \sum_{G_{m} (x_{i}) \neq y_{i}} w_{m i} (2.9)

这里,

w_{m i}

表示第

m

轮中第

i

个实例的权值，

\sum_{i = 1}^{N} w_{m i} = 1

.这表明，

G_{m} (x)

在加权的训练数据集上的分类错误率是被

G_{m} (x)

误分类样本的权值之和，由此可以看出数据权值分布

D_{m}

与基本分类器

G_{m} (x)

的分类错误率的关系。
(c)计算基本分类器

G_{m} (x)

的系数

α_{m}, α_{m}

表示

G_{m} (x)

在最终的分类器中的重要性。由式子(2.3)可知，当

e_{m} \leq \frac{1}{2}

时，

α_{m} \geq 0

，并且

α_{m}

伴随着

e_{m}

的减小而增大，所以分类误差率越小的基本分类器在最终分类器中的作用越大。
(d)更新训练数据的权值分布，为下一轮作准备。式子(2.5)可以写成：

w_{m + 1, i} = {\begin{cases} \frac{w_{m i}}{Z_{m}} e^{- α_{m}}, & G_{m} (x_{i}) = y_{i} \\ \frac{w_{m i}}{Z_{m}} e^{α_{m}}, & G_{m} (x_{i}) \neq y_{i} \end{cases}

由此可知，被基本分类器

G_{m} (x)

误分类样本的权值得以扩大，而被正确分类样本的权值却得以缩小。二者比较，误分类样本的权值被放大

e^{2 α_{m}} = \frac{e_{m}}{1 - e_{m}}

倍.因此，误分类样本在下一轮学习中起更大的作用。不改变所给的训练数据，而不断改变训练数据的权值分布，使得训练数据在基本分类器的学习中起不同的作用，这是AdaBoost的一个特点。

步骤(3)线性组合 $f (x)$ 实现了 $M$ 个基本分类器的加权表决。系数 $α_{m}$ 表示了基本分类器 $G_{m} (x)$ 的重要性，这里，所有 $α_{m}$ 之和并不为1. $f (x)$ 的符号决定实例 $x$ 的类， $f (x)$ 的绝对值表示分类的确信度，利用基本分类器的线性组合构建最终分类器是AdaBoost的另一特点。

参考例子

AdaBoost详解

注意，权值分布是在计算错误率 $e$ 时起作用，公式(2.2)中。

相关概念

AdaBoost算法

参考例子

相关推荐