分类-决策树
决策树可用于分类与回归. 本文讲分类.
1.概述
决策树由根节点, 判断节点及叶子节点组成.
从根节点起, 根据提问与样本的属性做出判断, 一步步往下走, 最终到达叶子节点, 得出最终的决策.
图1 西瓜数据集
图2 由西瓜数据集得到的决策树
2.相关概念
2.1 信息熵
信息熵, Information Entropy, 是度量集合中样本分布随机性
的一种指标.
假定样本集合D
中包含了n类样本, 第k类样本的出现频率为
熵越小, 则D的纯度越高; 熵越大, 样本分布约随机.
2.2 信息增益
在划分数据集之前之后, 信息发生的变化叫做信息增益, Information Gain.
首先引入条件熵的概念.
假定离散属性
可根据下式计算出用属性a划分D
的信息增益:
一般而言, 信息增益越大, 则意味着使用属性a来进行划分所获得的 “纯度提升” 越大. 因此, 我们可用信息增益来选择决策树的划分属性. 不断地寻找下式中的参属性a, 递归地建树.
2.3 信息增益比
3.算法步骤
依照不同的方法来找划分属性, 就有了不同的决策树学习算法. 但主流程是一样的:
- 从根节点开始, 按照某种方法得到最佳划分属性, 由该属性的不同取值建立孩子节点, 对应划分后的不同子
集.- 把孩子节点当作树根, 递归地重复上述方法, 就能得到最终的决策树.
3.1 ID3
以信息增益为准则来选择划分属性
.
3.2 C4.5
以信息增益为准则来选择划分属性
, 存在偏向于选择取值较多的特征
的问题. 使用信息增益比可以对这一问题进行纠正.
3.3 CART
二叉树.