GBDT
GBDT是Gradient Boosting Decision Tree的简称,其形式是决策树的加法模型。
fM(x)=m=1∑MT(x;Θm)
其中T(x;Θ)代表树模型,普遍使用的是CART树。
GBDT Regression
求解这个加法模型的方法即是上一节所提到的前向分步算法,于是我们自然要明确每一轮的损失函数的形式。GBDT并不指定损失函数的具体形式,对一般的损失函数L(y,f(xi)),在前向分步算法中第m步的优化中,我们要建立回归树去拟合损失函数关于f(x)的负梯度
rmi=−[∂f(x)∂L(yi;f(x))]f(x)=fm−1(xi)i=1,2,…,N
这是梯度提升名称的由来,也是本篇的重点,下面着重解析此处拟合负梯度的动机。
前向分步算法第m步的本质优化目标可以写为
fmini=1∑NL(yi,f(xi))
将f(x)拆分为fm−1(x)+T(x,Θm),优化目标变为
Θmmini=1∑NL(yi,fm−1(xi)+T(xi,Θm))
由于L(y,f(x))在此处没有明确形式,我们无法像AdaBoost那样直接将fm−1(x)与T(x,Θm)分成独立的两部分,为达成这个目的,考虑L(yi,fm−1(x)+T(x,Θm))的麦克劳林(Maclaurin)公式
L(yi,fm−1(xi)+T(xi,Θm))≈L(yi,fm−1(xi))+giT(xi,Θm)+21hi[T(xi,Θm)]2
其中gi=[∂f(x)∂L(yi,f(x))]f(x)=fm−1(xi), hi=[∂(f(x))2∂2L(yi,f(x))]f(x)=fm−1(xi)
这时候,由于前向分步算法第m步中,fm−1(xi)是常值,于是优化问题可以做如下转化
argΘmmini=1∑NL(yi,fm−1(xi)+T(xi,Θm))≈argΘmmini=1∑NgiT(xi,Θm)+21hi[T(xi,Θm)]2
记L(T(xi,Θ))=giT(xi,Θ)+21hi[T(xi,Θ)]2,对T(xi,Θ)求偏导并使其为0,则有
∂T(xi,Θ)∂L(T(xi,Θ))=gi+hiT(xi,Θ)=0
得
T(xi,Θ)=−higi
而我们一般假定L(yi,f(xi))是一个凸函数,此时hi>0,通常将hi设置成1去扮演梯度下降中学习率的角色,于是我们知道了前向分步算法中第m步的近似最优解就是能更好的拟合−gi的那一棵CART回归树,这即是GBDT拟合负梯度的动机。
还可以从另外一个角度去理解,即使L(yi,f(xi))不是一个凸函数,我们将L(yi,fm−1(xi)+T(xi,Θm))仅仅展开到一阶,如下式
L(yi,fm−1(xi)+T(xi,Θm))≈L(yi,fm−1(xi))+giT(xi,Θm)
移项后,变为
giT(xi,Θm)≈L(yi,fm−1(xi)+T(xi,Θm))−L(yi,fm−1(xi))
我们想要通过每一步优化使训练误差减小,即是想达到L(yi,fm−1(xi)+T(xi,Θm))−L(yi,fm−1(xi))⩽0的目的。此时取T(xi,Θm)=−gi即可满足要求。从这个角度也可以看出GBDT拟合负梯度的动机。
攻克了这项难关之后,下面的伪代码无非只是每一步用树模型拟合负梯度的前向分步算法

其中关于优化cmj的一步,CART树通常的做法是将落在Rmj的所有训练样本的label求平均,作为cmj的值。
GBDT Regression的特例——Boosting Tree
将提升树(Boosting Tree)写在这里,以解决抽象形式的损失函数L(y,f(x))所带来的理解困难的问题。
Boosting Tree是特殊的GBDT,其指定了损失函数的具体形式
L(y,f(x))=(y−f(x))2
该损失函数是一个凸函数,按照梯度提升树的求法,每一步所训练的树所要拟合的目标为
T(xi,Θ)=−higi
其中gi=[∂f(x)∂L(yi,f(x))]f(x)=fm−1(xi)=−2(yi−fm−1(xi)), hi=[∂(f(x))2∂2L(yi,f(x))]f(x)=fm−1(xi)=2
代入后,有
−higi=yi−fm−1(xi)
于是提升树是GBDT的特例,每一步优化的负梯度为当前模型拟合数据的残差(residual)。
GBDT Classification
而当我们想要用GBDT解决分类问题时(以二分类问题为例,多分类问题仅仅是将sigmoid函数更换为softmax函数),与Logistic Regression类似,用GBDT去拟合对数几率log1−pp.即
log1−pp=f(x)=m=1∑Mfm(x)
得分类模型
P(y=1∣x)=1+e−f(x)1=1+e−∑m=1Mfm(x)1
损失函数即与Logistic Regression相同,使用交叉熵(cross entropy)衡量分布的相似程度
L(xi,yi∣f(x))=−yilog1+e−f(xi)1−(1−yi)log(1−1+e−f(xi)1)=yilog(1+e−f(xi))+(1−yi)log(e−f(xi)1+e−f(xi))=yilog(1+e−f(xi))+(1−yi)[log(1+e−f(xi))+f(xi)]
损失函数在当前模型的负梯度为
−[f(x)∂L(yi∣f(x))]f(x)=fm−1(xi)=yi−1+e−fm−1(xi)1=yi−y^m−1,i
于是分类任务的GBDT每一轮的训练任务与提升树相同,都是拟合当前模型的残差。