统计学习 Adaboost

【基本原理】

将多个弱分类器进行组合，组成一个强分类器；

弱分类器：通常指代单层决策树，也就是决策树最简单的模型，只有一个特征判断点，选择一维特征来进行分类

如二维坐标点中选取X=2为划分点，X>2为+1类 X<2为-1类

统计学习 Adaboost

一个强分类器由多个弱分类器迭代训练组合而成，每一次只训练一个弱分类器，之前训练好的分类器参与下一次分类，也就是第N次迭代将训练第N个弱分类器，而前面的N-1个弱分类器均已训练完成，参数不再改变，第N个分类器重点对之前分类错误的数据进行偏重训练。分类器训练过程如下：

统计学习 Adaboost

【权重】

Adaboost算法中包含两大类权重。

数据权重	寻找其分类误差最小的决策点，也就是弱分类器重点需要分类正确的数据重要性描述。
弱分类器权重	表明在最终强分类器中该弱分类器对于分类起的作用大小

数据权重：用于描述数据集各部分的重要性差异，一种典型的情况，数据集的某部分在第N次训练时权重为0.1 但该轮分类中这部分数据分类正确率很低，那么增大权重到0.5 那么第N+1个弱分类器将重点使得上一次分类失败的数据分类正确，否则由于权重大，分类失败的损失将很大。

弱分类器权重：由于每次迭代后会计算弱分类器的正确率，正确率越高，那么权重越大，在最终强分类器中的决定权越大。

第N次迭代训练主要内容：

【加权表决计算】

针对一个样本，不同弱分类器有不同的结果，最终的分类结果将根据各个弱分类器的权重进行计算。

以一维分类为例，主要包含三个弱分类器：

那么针对一个一维数据，可以有四块组合分类情况：

统计学习 Adaboost