决策树 Decision Tree

信息熵 entropy

决策树 Decision Tree
描述信息量 越大 需要猜的次数越多 越不容易被预测 单位是bits

ID3算法

选择节点:
信息增益 Information Gain: IG(Y|X)=H(Y)-H(Y|X);
衡量一个属性(x)区分样本(y)的能力。 当新增一个属性(x)时,信息熵H(Y)的变化大小即为信息增益。 IG(Y|X)越大表示x越重要

所以IG大的作为Decision Tree的节点
如果其中有连续的值 需要离散化