一、决策树

决策树由结点和有向边组成，结点又分为内部结点和叶结点。从本质上来看，决策树的学习过程包括特征选择，决策树生成和决策树剪枝3个部分。

1.1决策树特征选择

所谓决策树特征选择即选择合适的特征作为结点对训练样本进行划分，通常使用信息增益或者信息增益比作为特征选择的标准。

信息增益
$g (D, A) = H (D) - H (D | A) = - \sum k = 1 K | C k | | D | l o g 2 | C k | | D | + \sum i = 1 n | D i | | D | H (D i) = - \sum k = 1 K | C k | | D | l o g 2 | C k | | D | + \sum i = 1 n | D i | | D | \sum k = 1 K D i k D i l o g 2 | D i k | | D i |$
其中， D为训练集样本， Ck表示第k类样本的集合, Ci表示特征A的属性为第i个值的样本集合
信息增益比
$g R (D, A) = g (D, A) H A (D) = g (D, A - \sum n i = 1 | D i | D l o g 2 | D i | | D |$

总结：
以信息增益作为划分训练数据集的特征，存在偏向于选择取值较多的特征的问题，使用信息增益比可以对这一问题进行校正。其对应的应用为，信息增益对应ID3算法，信息增益比对应C4.5算法。

1.2决策树生成算法

输入：训练数据D，特征集A，阈值 ϵ
输出：决策树T
（1）若D中所有实例属于同一类Ck, 则T为单结点树，并将类Ck作为该结点的类标记，返回T
（2）若A=∅，则T为单结点树，并将D中实例最大的类Ck作为该结点的类标记，返回T
（3）否则，按1.1中的方法计算A中各特征对D的信息增益或者信息增益比，选择我信息增益或者信息增益比最大的特征Ag
（4）如果Ag的信息增益小于阈值 ϵ 则置T为单结点树，并将D中实例数最大的类Ck作为该结点的类标记，返回T
（5）否则对Ag 的每一可能值ai ,依 Ag=ai 将D分割为若干非空子集Di, 将Di中实例数最大的类作为标记，构建子结点，由结点及其子结点构成树T，返回T
（6）对第i个子结点，以 Di 为训练集，A−Ag为特征集，递归调用（1）~（5），得到子树Ti ,返回Ti

1.3决策树剪枝

方法：极小化决策树整体的损失函数
损失函数定义：

C α (T) = \sum t = 1 | T | N t H t (T) + α | T |

在上式中，经验熵

H t (T) = - \sum k N t k N t l o g N t k N t

其中，设树T的叶节点个数为|T|，t是树T的叶结点，该叶结点有Nt个样本点，其中k类样本点有Ntk个，则Ht(T)为叶结点t上的经验熵
在损失函数中，Cα(T)等式右端的第一项记作

C (T) = \sum t = 1 | T | N t H t (T) = - \sum t = 1 | T | \sum k = 1 K N t k l o g N t k N t

称这一项为预测误差，用来描述模型与训练数据的拟合程度。用|T|来表示模型的复杂度，使用参数α 来控制两者之间的影响。

决策树剪枝算法：
输入：生成算法生成的整个树T, 参数α
输出：修剪后的子树 Tα
（1）计算每个结点的经验熵
（2）递归的从树的叶结点向上回缩，如下图所示：
决策树、CART、GBDT、Xgboost学习笔记
如果剪枝之后的损失函数比剪枝之前的损失函数小，则进行剪枝，其父结点变为新的叶结点
（3）返回（2），直至不能继续为止

二、CART

CART（classification and regression tree）分类回归树，其与一般决策树最大的变化是假设决策树是二叉树，内部结点特征的取值为‘是’和‘否’

2.1会归树的生成

一个回归树对应着输入空间（特征空间）的一个划分以及在划分单元的输出值。
假设已将一个输入空间划分为M个单元 R1、R2、...、Rm, 在每个单元Rm上有一个固定的输出值cm，于是回归树的模型可以表示为

f (x) = c m (若 x \in R m)

2.1.1确立输出空间的值

当输入空间的划分确定时，使用平方误差来表示回归树对训练数据的预测误差

L = \sum x i \in R m (y i - f (x i)) 2 = \sum x i \in R m (y i - c m) 2

使用平方误差最小的准则求解每个单元上的最优输出值，对损失函数求偏导

\partial L \partial c m = - 2 \sum x i \in R m (y i - c m)

令上式为0, 可求得最优解

c^m = a v e r a g e (y i | x i \in R m)

2.1.2如何对输入空间进行划分

使用启发式的方法，选择第j个特征 x(j) 及其取值 s 作为切分变量和且分点，由此可以可以得到两个区域R1和R2:

R 1 (j, s) = x | x (j) \leq s

和

R 1 (j, s) = x | x (j) > s

想要寻找最优切分变量和最优且分点，即要使得对当前结点所有的特征和其取值，总的损失函数最小，可表示为

min j, s [min c 1 \sum x i \in R 1 (j, s) (y i - C 1) 2 + min c 2 \sum x i \in R 2 (j, s) (y i - C 2) 2]

由此，可根据上面求得的最优c^1 和 c^2 可以求得最优切分变量j和最优且分点s

2.2分类树的生成

2.2.1 分裂准则-基尼指数

定义：

G i n i (p) = \sum k = 1 K p k (1 - p k)

2.2.2 生成算法

对于给定的样本集D，其基尼指数为

G i n i (D) = 1 - \sum k = 1 K (| C k | | D |) 2

这里，Ck是属于第k类的样本自己，K是类的个数
样本集合D根据特征A是否取某一可能值a被分割成D1和D2两部分，则在特征A的条件下，集合D的基尼指数定义为

G i n i (D, A) = | D 1 | | D | G i n i (D 1) + | D 2 | | D | G i n i (D 2)

在每一个结点，遍历多有的特征及其可能的取值，选取基尼指数最小的特征及其对应的且分点作为最优特征和最优切分点。递归调用直至满足停止条件。
算法停止的条件是结点中的样本个数小于预定阈值或样本集的基尼指数小于预定阈值或者没有更多特征。

2.2.3剪枝算法

输入：CART算法生成的决策树T0
输出：最优决策树Tα
(1)设k=0，T=T0
(2)设α=+∞
(3)自上而下地对各个内部结点t计算C(Tt),|Tt|以及

g (t) = C (t) - C (T t) | T t | - 1

α = m i n (α, g (t))

(4)对g(t)=α的内部结点t进行剪枝，并对叶结点t以多数表决法决定其类，得到树T
(5)设k=k+1，αk=α,Tk=T
(6)如果Tk不是由根节点及两个叶结点构成的树，则回到步骤(3)；否则令Tk=Tn
(7)采用交叉验证法在子树序列T0,T1,...,Tn中选取最优子树

三、GBDT（Gradient boosting decision tree）

3.1 GBDT 回归树算法

提升树模型可以表示为决策树的加法模型：

f M (x) = \sum m = 1 M T (x; θ m)

在上式中，T(x;θm)表示第m棵决策树，θm为第m棵决策树的参数，M为决策树的个数
提升树算法使用前向分步算法：
(1) 确定初始提升树

f 0 (x) = 0

(2)第m步的模型：

f m (x) = f m - 1 (x) + T (x; θ m)

在上式中，fm−1(x)是当前模型，通过经验风险最小化确定下一棵决策树的参数θm

θ^m = a r g min θ m \sum i = 1 N L (y i, f m - 1 (x) + T (x; θ m))

在二中，CART回归树的输出结果是

f (x) = c m (若 x \in R m)

当采用平方误差作为损失函数时，

L (y, f (x)) = (y - f (x)) 2

则其算是函数为

L (y, f m - 1 + T (x; θ m) ） = [y - f m - 1 (x) - T (x; θ m)] 2 = [r - T (x; θ m)] 2

说明：令r=y−fm−1(x)是当前模型的残差，所以提升树算法相当于对当前模型残差的拟合。
(3)梯度提升算法：

利用损失函数的负梯度在当前模型的值作为回归问题提升树算法中的残差的近似值，拟合一个回归树

r m i = - [\partial L (y, f (x i)) \partial f (x i)] f (x) = f m - 1 (x)

其算法基本步骤：
(1)初始化

f 0 (x) = a r g min c \sum i = 1 N L (y i, c)

(2)对m=1,2,3,…,M
(a)对=1,2，…, N，计算残差

r m i = - [\partial L (y i, f (x i)) \partial f (x i)] f (x) = f m - 1 (x)

(b)对rmi拟合一个回归树，得到第m棵树的叶结点区域Rmj
(c)对j=1,2,3,…J,计算

c m j = a r g min c \sum x i \in R m j L (y i, f m - 1 (x i) + c)

(d)更新fm(x)=fm−1(x)+∑Jj=1cmj(x∈Rmj)
(3)得到回归树

f^(x) = f M (x) = \sum m = 1 M \sum j = 1 J c m j (x \in R m j)

3.2GBDT分类树算法

未完待续….

参考文献:李航《统计学习方法》

决策树、CART、GBDT、Xgboost学习笔记