通俗易懂地搞懂决策树(Decision Tree)那些事儿
一、决策树是什么?
“决策树是一颗好树,是一颗可以帮我们做决策的树。”
决策树的结构:树形结构,节点表示判断条件(分为根节点和中间节点),分支代表判断结果,叶子代表分类结果。
二、如何构造一棵决策树
1.当我们要构造一棵决策树的时候,大概首先想到的就是以下4个问题:
- 选哪个作为根节点?
- 根节点选定后,怎么选中间节点?
- 最后的叶节点又是怎样确认的?到什么程度呢?
- 怎样把这个事弄的更细致,使其能够让计算机来实现?
2.要解决上面的问题,先来看下构造决策树的流程
收集数据->准备数据->分析数据->训练算法->测试算法->使用算法
针对构造决策树时候面临的问题,衍生了很多决策树算法,他们处理的根本问题是上面流程的第四步——训练算法,实际上也就是划分数据集方法。一般有ID3、C4.5、C5.0三种算法。
1) ID3算法
根据信息熵算法计算节点的信息增益,信息增益最大的自变量作为根节点,其他的特征值依次选取为内部节点。
2) C4.5算法
待更新。。。。
3) C5.0算法
待更新。。。。
三、决策树与多条件过滤有什么区别?
从决策树的结构可以看出来,其实决策树的本质就是多条件过滤,但与多条件过滤的区别主要体现在各判断的条件上,多条件过滤中各个判断条件的权重是一样的,而决策树中越是处于树结构顶端的节点权重占比越大,比如根节点的权重是最大的。这就好比去面试,一面没过的话就没必要进行二面、三面、四面了。因此决策树过滤的效率会比多条件过滤更高。
四、决策树的应用
决策树在商业中的实际应用很多,比如销量预测模型。
五、决策树的python实现
待更新。。。。
参考文章: