集成学习(bagging and boosting)

集成学习简介

集成学习是通过构建并组合多个学习器来完成学习任务的算法,集成学习常用的有两类:

Bagging:基学习器之间无强烈依赖关系,可以同时生成的并行化方法
Boosting:基学习之间存在强烈的依赖关系,必须串行生成基分类器的方法

集成学习可以分为以下几类:
集成学习(bagging and boosting)
Bagging(Boostsrap Aggregating)方法
bagging算法:

  1. 首先设置生成n个弱学习器
  2. 每次循环一个弱学习器,从样本中选取一部分样本进行训练生成一个学习器。
  3. 将生成的n个弱学习器组合,如果是分类问题就是这些弱学习器的众数,如果是回归问题那么就是这些弱分类器的平均数。
    集成学习(bagging and boosting)
    下面的是算法的具体细节:
    集成学习(bagging and boosting)
    Boosting方法
    Boosting方法是将‘弱学习器’提升为‘强学习器’的过程,通过反复学习得到一系列弱分类器(决策树和逻辑回归),组合这些弱分类器得到一个强分类器。Boosting算法要设计到两个部分,加法模型和前向分步算法。

加法模型就是说强分类器由一系列弱分类器线性相加而成。一般组合形式如下:
集成学习(bagging and boosting)
其中h(x;am)是弱分类器,am是弱分类器学习到的最优参数,βm是弱学习器在强分类器中所占的比重,P是所有am和βm的组合。这些弱分类器线性相加组成强分类器。

前向分步是在训练过程中,下一轮迭代产生的分类器是在上一轮的基础上训练得来的。即:
集成学习(bagging and boosting)