决策树__CART算法
CART决策树的生成就是递归地构建二叉树的过程.CART用基尼(Gini)系数最小化准则来进行特征选择,生成二叉树.
Gini系数计算:
CART算法例子:
分别计算他们的Gini 系数增益,取Gini系数增益值最大的属性作为决策树的根节点属性,根节点的Gini系数:
Gini(是否拖欠贷款) =
数据 :
序号 是否有房 婚姻状况 年收入 是否拖欠贷款
1 yes single 125K no
2 no married 100K no
3 no single 70K no
4 yes married 120K no
5 no divorced 95K yes
6 no married 60K no
7 yes divorced 220K no
8 no single 85K yes
9 no married 75K no
10 no single 90K yes
1.根据是否有房来进行划分时,Gini系数增益计算:
(左子节点代表yes,右子节点代表no)
是否有房 N1(yes) N2(no) 是否拖欠贷款 yes 0 3 3 no 3 4 7 Gini(左) =
Gini(右) =
{是否有房} =
2.
3.根据年收入
决策树剪枝,防止过拟合
1.预剪枝就是进入决策树之前就把一些影响很小的特征给去除了
2.后剪枝就是全部特征构建完成之后在进行砍掉一些特征