集成学习(Ensemble Learning)—boosting(提升法)—梯度提升决策树(GBDT)
梯度提升决策树(Gradient Boost Decision Tree GBDT)又叫 MART (Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有书的结论累计起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的算法。这些年被用于搜索排序的机器学习模型而引起大家的关注。
A、GBDT的优点:1,效果确实挺不错的;2,既可以做分类又可以做回归;3,可以筛选特征。
B、GBDT的训练过程
C、GBDT算法内部工作原理
GBDT主要有三个概念组成:Regression Decision Tree(即DT 回归树),Gradient Boosting(即GB 梯度迭代),Shrinkage(算法的一个重要演进分支,目前大部分源码都按该版本实现)
1、DT:回归树 Regression Decision Tree
决策树分为两大类:回归树和分类树。前者用于预测实数值(是一个值),如明天的温度、用户的年龄、网页的相关程度;后者用于分类标签值,如晴天/阴天/雾天、用户性别、网页是否是垃圾页面。这里要强调的是,前者的结果加减是有意义的,后者则无意义。GBDT的核心在于累加所有树的结果作为最终结果,就像前面对年龄的累加,而分类树的结果是没办法累加的,所以GBDT中的树都是回归树,不是分类树。