第四章决策树

4.1基本流程

今天学习一种常见的机器学习方法——决策树。什么东西呢，我觉得看一下下面这个图就知道什么回事了（图是用别的博主的）

第四章决策树

决策树包含一个根结点，若干内部结点和叶节点。叶节点表示决策结果（见还是不见），其他结点对应一个属性测试。可以看到，除了根结点包含所有的样本外，每经过一个属性测试，下面的节点就会只包含满足测试的样本，样本数越来越少。从根结点到叶节点就对应了一个测试序列。

看一下决策树的基本算法：

第四章决策树

这个算法可以从头到尾自己跟着它走一遍，大概知道什么意思，然后后面会有实际的构造决策树，对照着成型的决策树，自己再走一遍算法，如果能完美的和对照的决策树生成过程吻合，那我觉得就是理解了。

注意看一下算法的第8步，从属性集里面选择最优划分属性a*。什么意思呢？就是比如上面那个小姑娘相亲决策树，第一个测试属性是什么？年龄。那为什么不能使先测试身高呢？其实就是小姑娘无形中做了第8步算法——选了最优划分属性，人家认为年龄是最好的划分男生的属性。我们的算法第8步也是这个工作，那么我们这么选择呢？

4.2 划分选择

这一节就来解决怎么选择最优划分属性的问题。

摆几个定义：

第四章决策树

Ent(D)是数据集D的信息熵。D里面有|y|个类别，每一类占比pk。我们都学过熵，表示的是一个系统的混乱程度。所以我们可以这么说，D越纯，信息熵越小。

第四章决策树

Gain(D,a)是用属性a来划分D获得的信息增益。V是属性a的可能取值个数，如{a1,a2,…,aV}。Dv是D的子集，包含在a上取值为av的样本。一般说，这个信息增益越大，意味着用属性a划分获得的“纯度提升”越大。

所以我们有办法解决怎么选择最优划分属性的问题了：

第四章决策树

这就是我们的选择标准，每个属性我都给你算一个信息增益，谁大我要谁。（这个准则的算法我们叫"ID3决策树算法")

下面给一个数据集和一个基于该数据集用ID3算法生成的决策树。具体过程不写了，自己可以尝试着算一算，看能不能捣鼓出来，也顺便复习一下上面的基本算法。

西瓜数据集：

第四章决策树

生成的决策树：

第四章决策树

补充一点，我个人觉得书上这个决策树第二层中间的节点“触感=？”，下面的叶子节点反了。

上面的信息增益其实不错，但还不是太好。什么意思？我们的原则是要挑信息增益最大的属性出来，现在假设把上面西瓜数据集最左一列编号也当属性计算信息增益，会发现这个“编号”竟然是信息增益最大的。这意味着我要拿这么个莫名其妙的玩意儿当第一个属性结点。这是没有意义的。为什么会这样呢？因为简单想一下，这个编号属性可取的属性值有17个，也就是有17个分支，每个分支结点只有一个样本，简直比特仑苏还纯，有木有。

我们发现信息增益是对类似“编号”这样属性值可取数较多的属性有偏好。而这种偏好我们也看到有不好的影响。

怎么办呢，推出一个新的标准——增益率。

第四章决策树