决策树分类算法

首先它是一个有监督学习算法、属于判别模型、非线性分类

包含3个步骤：特征选择、决策树的生成、决策树的修剪

有3个典型的算法：ID3（使用信息增益生成决策树）、C4.5（使用信息增益比生成决策树）、CART

框架：模型、策略（损失函数）、算法

学习模型：目的是找到一个决策模型使得对数据进行正确分类

决策树分类算法

策略：

损失函数通常是正则化的极大似然函数，策略是以此损失函数为目标函数的最小化

算法：

学习的问题转变为在损失函数意义下选择最优决策树的问题

解决方法：采用递归算法

决策树包含3个步骤：特征选择、决策树的生成、决策树的修剪

1、特征选择

特征数量多时只留下对数据有足够分类能力的特征。

特征选择的准则是：信息增益，当然数据集的熵很大时可以采用信息增益比的方式。

信息增益的计算：

在已知的特征A下使得类Y的信息不确定性减少的程度

决策树分类算法

经验熵：熵表示为随机变量不确定性的大小，值越大表示不确定性越大

决策树分类算法

应用于此决策树，i则表示为不同类别，pi表示不同类别所属的概率

经验条件熵：

决策树分类算法

应用于此决策树，X表示特征数，具体可能为k个特征A1、A2...A k，Y表示数据集；考虑对一个特征A1分析，其它特征同理；首先根据此特征A1的取值不同有不同的样本集划分Di,例如A1有3个取值，则3个取值下有3个样本集，此3个样本集构成数据集Y；

则上述的求和次数为n=3；H（Y|X=xi）相当于H（Di）表示每个取值下的数据集的经验熵；（可参考青年中年老年的贷款例子）

pi表示特征取不同值的概率。

2、决策树生成：

分为两种使用信息增益和信息增益比。也即是ID3算法和C4.5算法；

其中ID3算法是：从根结点出发，对结点计算所有的信息增益，选择信息增益最大的特征作为结点的特征

，由该特征的不同取值建立子结点（不同的样本），再对子结点（样本集）递归调用上述计算信息增益的过程，构建出决策树，直到所有特征的信息增益均很小或者是没有特征可以选择时结束，最后得到一个决策树模型。

C4.5算法类似ID3，不同之处在于选择特征使用的信息增益比

信息增益计算，哪个信息增益最大：

决策树分类算法

（1）