决策树分类算法

首先它是一个有监督学习算法 、属于判别模型非线性分类

包含3个步骤:特征选择、决策树的生成、决策树的修剪

有3个典型的算法:ID3(使用信息增益生成决策树)、C4.5(使用信息增益比生成决策树)、CART

框架:模型、策略(损失函数)、算法

学习模型:目的是找到一个决策模型使得对数据进行正确分类

决策树分类算法

策略:

损失函数通常是正则化的极大似然函数,策略是以此损失函数为目标函数的最小化

算法:

学习的问题转变为在损失函数意义下选择最优决策树的问题

解决方法:采用递归算法

决策树包含3个步骤:特征选择、决策树的生成、决策树的修剪

1、特征选择

特征数量多时只留下对数据有足够分类能力的特征。

特征选择的准则是:信息增益,当然数据集的熵很大时可以采用信息增益比的方式。

信息增益的计算:

在已知的特征A下使得类Y的信息不确定性减少的程度

决策树分类算法

经验熵:熵表示为随机变量不确定性的大小,值越大表示不确定性越大

决策树分类算法

应用于此决策树,i则表示为不同类别,pi表示不同类别所属的概率

经验条件熵:

决策树分类算法

应用于此决策树,X表示特征数,具体可能为k个特征A1、A2...A k,Y表示数据集;考虑对一个特征A1分析,其它特征同理;首先根据此特征A1的取值不同有不同的样本集划分Di,例如A1有3个取值,则3个取值下有3个样本集,此3个样本集构成数据集Y;

则上述的求和次数为n=3;H(Y|X=xi)相当于H(Di)表示每个取值下的数据集的经验熵;(可参考青年中年老年的 贷款例子)

pi表示特征取不同值的概率。

2、决策树生成:

  分为两种使用信息增益和信息增益比。也即是ID3算法和C4.5算法;

其中ID3算法是:从根结点出发,对结点计算所有的信息增益,选择信息增益最大的特征作为结点的特征

,由该特征的不同取值建立子结点(不同的样本),再对子结点(样本集)递归调用上述计算信息增益的过程,构建出决策树,直到所有特征的信息增益均很小或者是没有特征可以选择时结束,最后得到一个决策树模型。

C4.5算法类似ID3,不同之处在于选择特征使用的信息增益比

信息增益计算,哪个信息增益最大:

决策树分类算法

(1) 

https://www.cnblogs.com/zy230530/p/6813250.html

关于字符串的和列表的访问详细的介绍https://blog.csdn.net/qq_26442553/article/details/81507972