总结:Bootstrap(自助法),Bagging,Boosting(提升)

Boosting算法代表--Adaboost(Adaptive Boosting)

核心思想:一种迭代算法,针对同一个训练集训练不同的分类器(弱分类器),然后进行分类,对于分类正确的样本权值低,分类错误的样本权值高(通常是边界附近的样本),最后的分类器是很多弱分类器的线性叠加(加权组合),分类器相当简单。实际上就是一个简单的弱分类算法提升(boost)的过程。

结合图形来过一遍Adaboost算法

总结:Bootstrap(自助法),Bagging,Boosting(提升)
这里写图片描述

算法开始前,需要将每个样本的权重初始化为1/m,这样一开始每个样本都是等概率的分布,每个分类器都会公正对待。

总结:Bootstrap(自助法),Bagging,Boosting(提升)
这里写图片描述

Round1,因为样本权重都一样,所以分类器开始划分,根据自己分类器的情况,只和分类器有关。划分之后发现分错了三个"+"号,那么这些分错的样本,在给下一个分类器的时候权重就得到提高,也就是会影响到下次取训练样本的分布,就是提醒下一个分类器,“诶!你注意点这几个小子,我上次栽在他们手里了!”

总结:Bootstrap(自助法),Bagging,Boosting(提升)
这里写图片描述

Round2,第二代分类器信誓旦旦的对上一代分类器说"我知道了,大哥!我一定睁大眼睛好好分着三个玩意!"ok,这次三个上次分错的都被分出来了,但是并不是全部正确,这次又栽倒在左下角三个"-"上了,然后临死前,第二代分类器对下一代分类器说"这次我和上一代分类器已经把他们摸得差不多了,你再稍微注意下左下角那三个小子,也别忘了上面那三个(一代错分的那三个"+")!"

总结:Bootstrap(自助法),Bagging,Boosting(提升)
这里写图片描述

Round3:有了上面两位大哥的提醒,第三代分类器表示,我差不多都知道上次大哥们都错哪了,我只要小心这几个,应该没什么问题!只要把他们弄错的我给整对了,然后把我们收集的信息一对,这不就行了么!ok,第三代分类器不负众望,成功分对上面两代分类器重点关注的对象,至于分错的那几个小的,以前大哥们都分对了,我们坐下来核对一下就行了!

总结:Bootstrap(自助法),Bagging,Boosting(提升)
这里写图片描述

最后,三个分类器坐下来,各自谈了谈心得,分配了下权重,然后一个诸葛亮就诞生啦!是不是道理很简单!至于权重如何计算,不在本文讨论范围内。


Adaboost优点

1.可以使用各种方法构造子分类器,Adaboost算法提供的是框架
2.简单,不用做特征筛选
3.相比较于RF,更不用担心过拟合问题

Adaboost缺点

1.从wiki上介绍的来看,adaboost对于噪音数据和异常数据是十分敏感的。Boosting方法本身对噪声点异常点很敏感,因此在每次迭代时候会给噪声点较大的权重,这不是我们系统所期望的。
2.运行速度慢,凡是涉及迭代的基本上都无法采用并行计算,Adaboost是一种"串行"算法.所以GBDT(Gradient Boosting Decision Tree)也非常慢。



原文链接:http://www.jianshu.com/p/708dff71df3a

如果您不想被转载,请通知我删掉此篇文章。