总结：Bootstrap(自助法)，Bagging，Boosting(提升)

Boosting算法代表--Adaboost(Adaptive Boosting)

核心思想：一种迭代算法，针对同一个训练集训练不同的分类器(弱分类器)，然后进行分类，对于分类正确的样本权值低，分类错误的样本权值高（通常是边界附近的样本），最后的分类器是很多弱分类器的线性叠加（加权组合），分类器相当简单。实际上就是一个简单的弱分类算法提升(boost)的过程。

结合图形来过一遍Adaboost算法

这里写图片描述

算法开始前，需要将每个样本的权重初始化为1/m,这样一开始每个样本都是等概率的分布，每个分类器都会公正对待。

这里写图片描述

Round1，因为样本权重都一样，所以分类器开始划分，根据自己分类器的情况，只和分类器有关。划分之后发现分错了三个"+"号，那么这些分错的样本，在给下一个分类器的时候权重就得到提高,也就是会影响到下次取训练样本的分布，就是提醒下一个分类器，“诶！你注意点这几个小子，我上次栽在他们手里了！”

这里写图片描述

Round2,第二代分类器信誓旦旦的对上一代分类器说"我知道了，大哥！我一定睁大眼睛好好分着三个玩意！"ok，这次三个上次分错的都被分出来了，但是并不是全部正确，这次又栽倒在左下角三个"-"上了，然后临死前，第二代分类器对下一代分类器说"这次我和上一代分类器已经把他们摸得差不多了，你再稍微注意下左下角那三个小子，也别忘了上面那三个(一代错分的那三个"+")！"

这里写图片描述

Round3:有了上面两位大哥的提醒，第三代分类器表示，我差不多都知道上次大哥们都错哪了，我只要小心这几个，应该没什么问题！只要把他们弄错的我给整对了，然后把我们收集的信息一对，这不就行了么！ok，第三代分类器不负众望，成功分对上面两代分类器重点关注的对象，至于分错的那几个小的，以前大哥们都分对了，我们坐下来核对一下就行了！

这里写图片描述

最后，三个分类器坐下来，各自谈了谈心得，分配了下权重，然后一个诸葛亮就诞生啦！是不是道理很简单！至于权重如何计算，不在本文讨论范围内。

Adaboost优点

1.可以使用各种方法构造子分类器，Adaboost算法提供的是框架
2.简单，不用做特征筛选
3.相比较于RF，更不用担心过拟合问题

Adaboost缺点

1.从wiki上介绍的来看，adaboost对于噪音数据和异常数据是十分敏感的。Boosting方法本身对噪声点异常点很敏感，因此在每次迭代时候会给噪声点较大的权重，这不是我们系统所期望的。
2.运行速度慢，凡是涉及迭代的基本上都无法采用并行计算，Adaboost是一种"串行"算法.所以GBDT(Gradient Boosting Decision Tree)也非常慢。

原文链接：http://www.jianshu.com/p/708dff71df3a

如果您不想被转载，请通知我删掉此篇文章。

总结：Bootstrap(自助法)，Bagging，Boosting(提升)

Boosting算法代表--Adaboost(Adaptive Boosting)

相关推荐