数据仓库与数据挖掘-决策树-ID3算法 个人笔记

声明:文中内容基于山东某高校数据挖掘课程的课件,本系列文章为课程内容的个人总结以及笔记内容。

信息熵
信息熵标识离散随机事件出现的概率,一个系统越是有序,信息熵就越低。反之,一个系统越混乱,它的信息熵就越高。

信息熵是系统有序化程度的一个度量。

数据仓库与数据挖掘-决策树-ID3算法 个人笔记
信息增益
信息增益标识得知特征X的信息后,而使得Y的不确定性减少的程度。
数据仓库与数据挖掘-决策树-ID3算法 个人笔记
数据仓库与数据挖掘-决策树-ID3算法 个人笔记
举个例子:
数据仓库与数据挖掘-决策树-ID3算法 个人笔记
数据仓库与数据挖掘-决策树-ID3算法 个人笔记
构造一个决策树:
1、训练样本的信息值
2、第一棵树,计算样本的信息值
3、第一棵树,划分各属性导致的信息增益
4、选择或的最大信息增益的属性进行划分
5、以此类推,递归继续划分
6、当所有叶节点都是纯的,划分过程终止

训练样本的信息熵
例子:训练样本(用来创建树的数据集)在包含9个yes和5个no的根节点上,对应的信息熵:
数据仓库与数据挖掘-决策树-ID3算法 个人笔记
对于第一棵树划分属性:
数据仓库与数据挖掘-决策树-ID3算法 个人笔记

yes no 合计
sunny 2 3 5
overcast 4 0 4
sunny 2 3 5
rain 3 2 5
合计 9 5

基于天气(outlook)划分,在叶节点的yes和no类的个数分别是[2,3],[4,0],和[3,2]这些节点的信息值分别为
数据仓库与数据挖掘-决策树-ID3算法 个人笔记
数据仓库与数据挖掘-决策树-ID3算法 个人笔记
计算信息增益
数据仓库与数据挖掘-决策树-ID3算法 个人笔记数据仓库与数据挖掘-决策树-ID3算法 个人笔记
数据仓库与数据挖掘-决策树-ID3算法 个人笔记
数据仓库与数据挖掘-决策树-ID3算法 个人笔记
数据仓库与数据挖掘-决策树-ID3算法 个人笔记
数据仓库与数据挖掘-决策树-ID3算法 个人笔记
数据仓库与数据挖掘-决策树-ID3算法 个人笔记
数据仓库与数据挖掘-决策树-ID3算法 个人笔记