Gini,信息熵,分类误差的2个题目

题目一:
Gini,信息熵,分类误差的2个题目
我的答案:

a)
男有10个,女有10个,所以,如果要计算性别的Gini值的话,根据Gini值公式:
1-(10/20)* (10/20)-(10/20)* (10/20)=0.5
b)按照车型多路划分:
家用 运动 豪华
C0 1 8 1
C1 3 0 7
根据Gini值公式:
家用的Gini=1-(1/4)* (1/4)-(3/4)* (3/4)=0.375
运动的Gini=1-(8/8)* (8/8)-(0/8)* (0/8)=0
豪华的Gini=1-(1/8)* (1/8)-(7/8)* (7/8)=0.21875
划分后的总Gini为加权和:0.375*(4/20)+0*(8/20)+0.21875*(8/20)=0.1625
c)按照尺码多类划分:
小 中 大 加大
C0 3 3 2 2
C1 2 4 2 2

根据Gini值公式:
小的Gini=1-(3/5)* (3/5)-(2/5)* (2/5)=0.48
中的Gini=1-(3/7)* (3/7)-(4/7)* (4/7)=0.489796
大的Gini=1-(2/4)* (2/4)-(2/4)* (2/4)=0.5
加大的Gini=1-(2/4)* (2/4)-(2/4)* (2/4)=0.5

划分后的总Gini为加权和:(5*0.48+7*0.489796+4*0.5+4*0.5)/20 =0.491429
d) 当然是分类后Gini越小越好,所以,车型属性最好(性别分类就略过计算了)

题目2
Gini,信息熵,分类误差的2个题目
我的答案:
a)有+类4个,-类5个,按照熵的公式:
P(+)=4/9 P(-)=5/9
Entropy = -(4/9)log(4/9)-(5/9)log(5/9)=0.99108
b)使用a1划分:
T F
+ 3 1
- 1 4
根据信息熵的公式:
T
P(+)=3/4 P(-)=1/4
Entropy = -(3/4)log(3/4)-(1/4)log(1/4)=0.81128
F
P(+)=1/5 P(-)=4/5
Entropy = -(1/5)log(1/5)-(4/5)log(4/5)=0.72193
总的加权和为(4*0.81128+5*0.72193)/9=0.761641
熵增益=0.99108-0.761641=0.229439

使用a2划分:
T F
+ 2 2
- 3 2
根据信息熵的公式:
T
P(+)=2/5 P(-)=3/5
Entropy = -(2/5)log(2/5)-(3/5)log(3/5)=0.97095
F
P(+)=2/4 P(-)=2/4
Entropy = -(2/4)log(2/4)-(2/4)log(2/4)=1
总的加权和为(5*0.97095+4*1)/9=0.995044444444445
熵增益=0.99108-0.9950445=0.00396
c)使用a1划分:
T F
+ 3 1
- 1 4
根据分类错误率公式:
T:
P(+)=3/4
P(-)=1/4
Error=1-max(P(+),p(-))=1-3/4=1/4
F:
P(+)=1/5
P(-)=4/5
Error=1-max(P(+),p(-))=1-4/5=1/5
加权Error=(4*1/4+5*1/5)/9=2/9
使用a2划分:
T F
+ 2 2
- 3 2
根据分类错误率公式:
T:
P(+)=2/5
P(-)=3/5
Error=1-max(P(+),p(-))=1-3/5=2/5
F:
P(+)=2/4
P(-)=2/4
Error=1-max(P(+),p(-))=1-2/4=1/2
加权Error=(5*2/5+4*1/2)/9=4/9
所以应该使用a1划分
d)使用a1划分:
T F
+ 3 1
- 1 4
根据Gini值公式:
T的Gini=1-(3/4)* (3/4)-(1/4)* (1/4)=0.375
F的Gini=1-(1/5)* (1/5)-(4/5)* (4/5)=0.32
划分后的总Gini为加权和:(4*0.375+5*0.32)/9 =0.344444
使用a2划分:
T F
+ 2 2
- 3 2
根据Gini值公式:
T的Gini=1-(2/5)* (2/5)-(2/4)* (2/4)=0.408163
F的Gini=1-(2/4)* (2/4)-(2/4)* (2/4)=0.5
划分后的总Gini为加权和:(5*0.408163+4*0.5)/9 =0.448979
所以,明显应该使用a1划分