第8章 提升方法
第8章 Adaboost
在分类问题中,通过 改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类性能。
8.1 提升方法AdaBoost算法
8.1.1 提升方法的基本思路
提升方法基于这样的一种思想:对于一个复杂任务来说,将多个专家的判断进行适当的综合所得出的判断,要比其中任何一个专家单独的判断好。
在概率近似正确(probably approximately correct,PAC)学习的框架中,一个该娘(一个类),如果存在一个多项式的学习算法能够学习它,并且正确率很高,那么就称这个概念是强可学习(strongly learnable)的;一个概念,如果存在一个多项式的学习算法能够学习它,学习的正确率仅比随即猜测略好,那么就称这个概念是弱可学习(weakly learnable)的。
在PCA学习的框架下,一个概念是强可学习的充分必要条件是这个概念是弱可学习的。
发现弱学习算法通常要比发现强学习算法容易得多。
大多数的提升方法,都是改变训练数据的概率分布(训练数据的权值分布),针对不同的训练数据分布调用弱学习算法学习一系列弱分类器。
8.1.2 AdaBoost算法
算法8.1 (AdaBoost)
αm表示表述Gm(x)在最终分类器中的重要性。