决策树__CART算法

CART决策树的生成就是递归地构建二叉树的过程.CART用基尼(Gini)系数最小化准则来进行特征选择,生成二叉树.

Gini系数计算:

决策树__CART算法

决策树__CART算法

决策树__CART算法

CART算法例子:

分别计算他们的Gini 系数增益,取Gini系数增益值最大的属性作为决策树的根节点属性,根节点的Gini系数:

Gini(是否拖欠贷款) = 决策树__CART算法

数据 :

序号        是否有房             婚姻状况           年收入          是否拖欠贷款

1             yes                      single                 125K            no

2             no                        married              100K            no

3             no                        single                 70K              no

4             yes                      married              120K            no

5             no                        divorced            95K              yes

6             no                        married              60K             no

7             yes                      divorced             220K            no

8             no                      single                   85K            yes

9             no                      married                75K              no

10           no                      single                   90K            yes

 

 

1.根据是否有房来进行划分时,Gini系数增益计算:

(左子节点代表yes,右子节点代表no)

    是否有房  
    N1(yes) N2(no)  
是否拖欠贷款 yes 0 3 3
no 3 4 7

Gini(左) = 决策树__CART算法

Gini(右) = 决策树__CART算法

决策树__CART算法{是否有房} = 决策树__CART算法

2.

决策树__CART算法

3.根据年收入

决策树__CART算法 

决策树__CART算法

决策树剪枝,防止过拟合

1.预剪枝就是进入决策树之前就把一些影响很小的特征给去除了

2.后剪枝就是全部特征构建完成之后在进行砍掉一些特征