数据挖掘之决策树

本文主要来自<<数据挖掘导论>>以及本人的一些感悟

决策数

从数据中产生决策树的数据学习称为决策数学习,简称决策数.决策树是数据挖掘中最常用的一种分类和预测技术,使用其可建立分类和预测模型;
它的形状如同一棵树,每个节点对于与对象的某个属性,每个分支对应这个属性的某个可能取值,每个叶节点表示经历从根节点到该叶节点这条路径上的对象的值;

决策树模型(图片来自于网络)

数据挖掘之决策树

决策树算法的关键技术

决策树算法中有以下三项关键技术:
1.选择最能区别数据集中实例属性的方法
2.剪枝方法
3.检验方法
以上三项关键技术决定了决策树建立的三个重要环节:树分支节点的创建;剪枝和检验

(1)选择最能区别数据集中实例属性的方法
信息熵:信息变化的平均信息量,信息的熵越大,能传播的信息越多

信息熵的技术公式:
数据挖掘之决策树

ID3算法:
数据挖掘之决策树
信息增益公式(C4.5算法):
数据挖掘之决策树
数据挖掘之决策树数据挖掘之决策树