【NLP复习】集成学习——Bootstraping、Bagging、Boosting、GBDT、XGBoost

一、Bootstraping、Bagging、Boosting的思想?

  • Bootstraping(自助抽样法):
    • 从给定训练集中有放回的均匀抽样。假设给定的数据集包含d个样本。
    • 该数据集有放回地抽样d次,训练集中没出现的概率就是d次都未被选中的概率,即(1-1/d)^d。当d趋于无穷大时,这一概率就将趋近于e^(-1)=0.368,所以留在训练集中的样本大概占原来数据集的63.2%。
  • Bagging(Bootstrap Aggregating的缩写,适合小样本和不知样本分布的情况,目的是减少方差):
    • 用Booststraping的方法抽n个样本作为训练集,重复K次得到K个训练集。
    • 每次训一个训练集,一共训出K个模型。
    • 对于分类问题,可以通过投票选最好的模型;对于回归问题,可以K模型输出求平均。
  • Boosting/AdaBoost(目的是减小偏差):
    • boosting是一种集成技术,试图从多个弱分类器中创建强分类器。
    • AdaBoost(Adaptive Boosting自适应增强):
      • 前一个基本分类器被错误分类的样本的权值会增大,而正确分类的样本的权值会减小,并再次用来训练下一个基本分类器。同时,在每一轮迭代中,加入一个新的弱分类器,直到达到某个预定的足够小的错误率或达到预先指定的最大迭代次数才确定最终的强分类器。
  • Bagging和Boosting的区别:
    • 样本选择:Bagging有放回取样,Boosting每次都一样只不过样本权重不同
    • 预测函数:Bagging所有预测函数的权重相等,Boosting误差小的权重大
    • 并行计算:Bagging多个模型可并行,Boosting后面需要前面结果来更新权重所以没法并行
    • 目的不同:Bagging减少Variance(随机选样本,随机选特征;而弱分类器们优化的目标一致,所以bias差不多的),Boosting减少Bias(迭代修正模型一步一步逼近真实值。如果迭代次数足够多,可以产生更好的预测结果,也就是减少了偏差。同时由于boosting中的基分类器是强相关的,总是利用残差(实际值与预测值的差)来进行计算,所以不能显著的降低variance)

二、简单介绍一下GBDT和XGBoost?

【NLP复习】集成学习——Bootstraping、Bagging、Boosting、GBDT、XGBoost

【NLP复习】集成学习——Bootstraping、Bagging、Boosting、GBDT、XGBoost

  • GBDT(Gradient Boosting Decision Tree)全称梯度下降树,训练过程如下图。GB:让损失函数沿着梯度方向的下降。利用损失函数的负梯度在当前模型的值作为回归问题提升树算法中的残差的近似值去拟合一个回归树。GBDT每轮迭代的时候,都去拟合损失函数在当前模型下的负梯度。

【NLP复习】集成学习——Bootstraping、Bagging、Boosting、GBDT、XGBoost

  • GBDT如何选择特征?(其实是想问你CART Tree生成的过程)
    • 假设一共M个特征,选其中一个特征Mi以及划分阈值mi
    • 咋选特征呢?暴力遍历这M个特征和他们所有可能的切分点。。找到当前最佳Mi和mi
  • GBDT如何构建特征?(自动产生特征的组合)
  • 【NLP复习】集成学习——Bootstraping、Bagging、Boosting、GBDT、XGBoost
  • GBDT如何实现分类?
    • 每轮迭代的时候,弱分类器的输出的结果相减得有意义才行。
    • 如果选用的弱分类器是分类树,类别相减是没有意义的。上一轮输出的是样本 x 属于 A类,本一轮训练输出的是样本 x 属于 B类。 A 和 B 很多时候甚至都没有比较的意义,A 类- B类是没有意义的。
    • 对于三分类:实质上每轮训练时同时训三颗树,每颗树的训练过程其实就是就是我们之前已经提到过的CATR TREE的生成过程,仿照多分类的逻辑回归,使用softmax 来产生概率,转换成了三个2分类。
  • XGBoost与GBDT的区别【https://www.jianshu.com/p/11d2dc0de040】:
    • 【NLP复习】集成学习——Bootstraping、Bagging、Boosting、GBDT、XGBoost
      • 【NLP复习】集成学习——Bootstraping、Bagging、Boosting、GBDT、XGBoost

【参考文献】