数据仓库与数据挖掘-决策树-ID3算法个人笔记

声明：文中内容基于山东某高校数据挖掘课程的课件，本系列文章为课程内容的个人总结以及笔记内容。

信息熵
信息熵标识离散随机事件出现的概率，一个系统越是有序，信息熵就越低。反之，一个系统越混乱，它的信息熵就越高。

信息熵是系统有序化程度的一个度量。

数据仓库与数据挖掘-决策树-ID3算法个人笔记
信息增益
信息增益标识得知特征X的信息后，而使得Y的不确定性减少的程度。

举个例子：

构造一个决策树：
1、训练样本的信息值
2、第一棵树，计算样本的信息值
3、第一棵树，划分各属性导致的信息增益
4、选择或的最大信息增益的属性进行划分
5、以此类推，递归继续划分
6、当所有叶节点都是纯的，划分过程终止