决策树(Decision Tree)算法原理
1.熵的概念
不确定性越大熵就越大,不确定性越小熵就越小
说明A的不确定性最大,B的不确定性较小,C是一个确定性事件所以熵为0
2.ID3算法
ID3算法是通过信息增益的计算来选择根节点的划分
会发现age的信息增益最大,根据ID3算法,始终选择信息增益最大的作为根节点,所以把age作为根节点
决策树生成第一层之后,在每个叶子节点重复上面的操作再确定下一个分支结点
同时对于连续变量的处理我们可以在每两个数据之间依次计算信息增益的大小(处理成类似于离散型数据),再选择信息增益最大的年龄段来作为根节点,例如大于23岁和小于23岁
3.C4.5算法
首先说明信息增益的缺点(该内容来自百度百科)
正是存在这样的缺点所以引进了C4.5算法
C4.5算法是通过增益率的计算来选择根节点的划分
4.CART算法(Gini系数)
对于年收入的处理与之前连续变量的处理类似,依次取中值计算