《机器学习(周志华)》Chapter8 集成学习

    想了解更多的同学强烈建议阅读下参考网址。

《机器学习(周志华)》Chapter8 集成学习    


    集成学习大致可分为两类,第一类的代表是Boosting,个体学习器间存在强依赖关系、必须串行生成的序列化方法;第二类的代表是Bagging和“随机森林”,个体学习器间不存在强依赖关系、可同时生成的并行方法。


《机器学习(周志华)》Chapter8 集成学习


1、bagging:从训练集从进行子抽样组成每个基模型所需要的子训练集,对所有基模型预测的结果进行综合产生最终的预测结果:

《机器学习(周志华)》Chapter8 集成学习

2、boosting:训练过程为阶梯状,基模型按次序一一进行训练(实现上可以做到并行),基模型的训练集按照某种策略每次都进行一定的转化。对所有基模型预测的结果进行线性综合产生最终的预测结果:

《机器学习(周志华)》Chapter8 集成学习

3、stacking:将训练好的所有基模型对训练基进行预测,第j个基模型对第i个训练样本的预测值将作为新的训练集中第i个样本的第j个特征值,最后基于新的训练集进行训练。同理,预测的过程也要先经过所有基模型的预测形成新的测试集,最后再对测试集进行预测:

《机器学习(周志华)》Chapter8 集成学习


基础分类器结果整合的主要方式:

1、对于回归预测(数值预测),平均法:

  • 简单平均法:\[H(x) = \frac{1}{T}\sum\limits_{i = 1}^T {\mathop h\nolimits_i } (x)\]
  • 加权平均法:\[H(X) = \sum\limits_{i = 1}^T {\mathop {\mathop w\nolimits_i h}\nolimits_i (x)} \]

其中Wi是个体学习器hi的权重,通常要求\(\mathop w\nolimits_i  \ge 0\),\(\sum\limits_{i = 1}^T {\mathop {\mathop w\nolimits_i }\nolimits_{} }  = 1\)

2、对于分类(类别预测),投票法:

  • 绝对多数套票法:(即若某标记得票过半数,则预测为该标记;否则拒绝预测)
《机器学习(周志华)》Chapter8 集成学习
  • 相对多数投票法:(即预测为得票最多的标记,若同时有多个标记获得最高票,则从中随机选取一个)
《机器学习(周志华)》Chapter8 集成学习
  • 加权投票法:(与加权平均法类似)
《机器学习(周志华)》Chapter8 集成学习

其中Wi是个体学习器hi的权重,通常要求\(\mathop w\nolimits_i  \ge 0\),\(\sum\limits_{i = 1}^T {\mathop {\mathop w\nolimits_i }\nolimits_{} }  = 1\)


AdaBoost算法推导:

AdaBoost算法是Boosting族算法最著名的代表,推导方式有多种,基于“加性模型”比较容易理解,即基学习器的线性组合,\[H(x) = \sum\limits_{t = 1}^T {\mathop \alpha \nolimits_t } \mathop h\nolimits_t (x)\]

采用最小化指数损失函数(为什么采用指数损失函数可参考给出的参考网址):\[\mathop \ell \nolimits_{\exp } (H|D) = \mathop E\nolimits_{x \sim D} [\mathop e\nolimits^{ - f(x)H(x)} ]\]

若H(x)能令指数函数最小化,则考虑上式对H(x)求偏导等于零可解出H(x):\[\frac{{\partial \mathop \ell \nolimits_{\exp } (H|D)}}{{\partial H(x)}} = \mathop e\nolimits^{ - H(x)} P(f(x) = 1|x) + \mathop e\nolimits^{ - H(x)} P(f(x) =  - 1|x)\]

\[H(x) = \frac{1}{2}\ln \frac{{P(f(x) = 1|x)}}{{P(f(x) =  - 1|x)}}\]

因此最终的集成结果为:

《机器学习(周志华)》Chapter8 集成学习

AdaBoost算法先选取一个基分类器,然后再迭代产生ht和αt,当基分类器ht基于分布Dt产生后,该基分类器的权重αt应使得αtht最小化指数损失函数:

《机器学习(周志华)》Chapter8 集成学习

《机器学习(周志华)》Chapter8 集成学习

《机器学习(周志华)》Chapter8 集成学习

等于零解得:

《机器学习(周志华)》Chapter8 集成学习






参考网址:

http://www.cnblogs.com/jasonfreak/p/5657196.html

http://www.xtecher.com/Xfeature/view?aid=7974