信息熵
假定当前样本集合 $D$ 中第 $k$ 类样本所占的比例 $p_k(k=1,2,3,\ldots,|\mathcal{Y}|)$ 且 $0 \leq p_{k} \leq 1, \sum_{k=1}^{|\mathcal{Y}|} p_{k}=1$ , $|\mathcal{Y}|$ 样本的类别总数，则 $D$ 的信息熵定义为
$\operatorname{Ent}(D)=-\sum_{k=1}^{|\mathcal{Y}|} p_{k} \log _{2} p_{k}$
$\operatorname{Ent}(D)$ 的值越小，则 $D$ 的纯度越高
证明： $0\leq \operatorname{Ent}(D) \leq\log_2|\mathcal{Y}|$
- 求 $\operatorname{Ent}(D)$ 的最大值
  若令 $|\mathcal{Y}|=n,p_k=x_k$ ,那么信息熵$\operatorname{Ent}(D) $就可以看成$ n$元实值函数，也即：
  $\operatorname{Ent}(D)=f\left(x_{1}, \ldots, x_{n}\right)=-\sum_{k=1}^{n} x_{k} \log _{2} x_{k}$
  其中 $0 \leq x_{k} \leq 1, \sum_{k=1}^{n} x_{k}=1$ ，考虑求该多元函数的最值(约束优化问题)
  仅考虑 $\sum_{k=1}^{n} x_{k}=1$ 对于 $f\left(x_{1}, \ldots, x_{n}\right)$ 求最大值等同于如何最小化
  $\text { min } \sum_{k=1}^{n} x_{k} \log _{2} x_{k},\text { S.t. } \sum_{k=1}^{n} x_{k}=1$
  显然，在 $0\leq x_k \leq 1$ 时此问题为凸优化(拆开分析二阶导数大于零，或hessian矩阵)问题，而对于凸优化问题来说，满足KKT条件的点即为最优解。由于此最小化问题仅含等式约束，那么能令其拉格朗日函数的一阶偏导数等于0的点即为满足KKT条件的点。
  根据拉格朗日乘子法可知，该优化问题的拉格朗日函数为
  $L\left(x_{1}, \ldots, x_{n}, \lambda\right)=\sum_{k=1}^{n} x_{k} \log _{2} x_{k}+\lambda\left(\sum_{k=1}^{n} x_{k}-1\right)$
  对于拉格朗日函数分别关于 $x_1,\ldots,x_n,\lambda$ 求一阶偏导数，并令偏导数等于0
  $\begin{aligned} \frac{\partial L\left(x_{1}, \ldots, x_{n}, \lambda\right)}{\partial x_{1}}&=\frac{\partial}{\partial x_{1}}\left[\sum_{k=1}^{n} x_{k} \log _{2} x_{k}+\lambda\left(\sum_{k=1}^{n} x_{k}-1\right)\right]=0\\ &=\log _{2} x_{1}+x_{1} \cdot \frac{1}{x_{1} \ln 2}+\lambda=0\\ &=\log _{2} x_{1}+\frac{1}{\ln 2}+\lambda=0\\ &\Rightarrow \lambda=-\log _{2} x_{1}-\frac{1}{\ln 2} \end{aligned}$
  同理可得
  $\lambda=-\log _{2} x_{1}-\frac{1}{\ln 2}=-\log _{2} x_{2}-\frac{1}{\ln 2}=\ldots=-\log _{2} x_{n}-\frac{1}{\ln 2}$
  又因为
  $\begin{aligned} \frac{\partial L\left(x_{1}, \ldots, x_{n}, \lambda\right)}{\partial \lambda} &=\frac{\partial}{\partial \lambda}\left[\sum_{k=1}^{n} x_{k} \log _{2} x_{k}+\lambda\left(\sum_{k=1}^{n} x_{k}-1\right)\right]=0 \\ & \Rightarrow \sum_{k=1}^{n} x_{k}=1 \end{aligned}$
  所以解的
  $x_{1}=x_{2}=\ldots=x_{n}=\frac{1}{n}$
  根据验证满足约束条件，所以未满足所有约束的最优解，也即未当前最小化问题的最小值点，同时也是 $f\left(x_{1}, \ldots, x_{n}\right)$ 的最大值点
  将解带入可得
  $f\left(\frac{1}{n}, \ldots, \frac{1}{n}\right)=-\sum_{k=1}^{n} \frac{1}{n} \log _{2} \frac{1}{n}=-n \cdot \frac{1}{n} \log _{2} \frac{1}{n}=\log _{2} n$
  纯度最低是为样本为均匀分布的时候
- 求 $\operatorname{Ent}(D)$ 的最小值
  仅考虑 $0 \leq x_k \leq 1$ ， $f\left(x_{1}, \ldots, x_{n}\right)$ 可以看成是 $n$ 个互不相关的一元函数的加和，即
  $f\left(x_{1}, \ldots, x_{n}\right)=\sum_{k=1}^{n} g\left(x_{k}\right)$
  其中 $g\left(x_{k}\right)=-x_{k} \log _{2} x_{k}, 0 \leq x_{k} \leq 1$ 。当各个 $g(x_i)$ 分别取到其最小值时，函数也取到最小值
  - 求 $g(x_1)$ 的最小值
    $\begin{aligned} g^{\prime}\left(x_{1}\right)&=\frac{d\left(-x_{1} \log _{2} x_{1}\right)}{d x_{1}}=-\log _{2} x_{1}-x_{1} \cdot \frac{1}{x_{1} \ln 2}=-\log _{2} x_{1}-\frac{1}{\ln 2}\\ g^{\prime \prime}\left(x_{1}\right)&=\frac{d\left(g^{\prime}\left(x_{1}\right) \right)}{d x_{1}}=\frac{d\left(-\log _{2} x_{1}-\frac{1}{\ln 2}\right)}{d x_{1}}=-\frac{1}{x_{1} \ln 2} \end{aligned}$
    $g(x_1)$ 是一个在其定义域范围内开口向下的凹函数，那么其最小值必然在边界取。所以 $g(0)=g(1)=1$
    Note:在信息熵中 $0\log_2 0=0$
条件熵
在已知样本属性 $a$ 的取值情况下，度量样本集合纯度的一种指标
假定离散属性 $a$ 有 $V$ 个可能的取值 $\{a^1,a^2,\ldots,a^V\}$ ,若使用 $a$ 来对样本集 $D$ 进行划分，则会产生 $V$ 个分支结点，其中第 $v$ 个分支结点包含了 $D$ 中所有在属性 $a$ 上取值为 $a^v$ 的样本，记为 $D^v$
$H(D | a)=\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \operatorname{Ent}\left(D^{v}\right)$
$H(D | a)$ 值越小，纯度越高
信息增益
属性 $a$ 对样本集 $D$ 进行划分所获得的信息增益
$\operatorname{Gain}(D, a)=\operatorname{Ent}(D)-\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \operatorname{Ent}\left(D^{v}\right)=\operatorname{Ent}(D)-H(D | a)$
其中 $|D^v|/|D|$ 为分支结点赋予权重，即样本数越多的分支结点的影响越大

一般而言信息增益越大，则意味着使用属性 $a$ 来进行划分所获得的纯度提升越大

最优化分属性
$a_{*}=\underset{a \in A}{\arg \max } \operatorname{Gain}(D, a)$

缺点
信息增益对对可取数值数目较多的属性有所偏好
$\begin{aligned} \operatorname{Gain}(D, a) &=\operatorname{Ent}(D)-\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \operatorname{Ent}\left(D^{v}\right) \\ &=\operatorname{Ent}(D)-\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|}\left(-\sum_{k=1}^{|y|} p_{k} \log _{2} p_{k}\right) \\ &=\operatorname{Ent}(D)-\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|}\left(-\sum_{k=1}^{|y|} \frac{\left|D_{k}^{v}\right|}{\left|D^{v}\right|} \log _{2} \frac{\left|D_{k}^{v}\right|}{\left|D^{v}\right|}\right) \end{aligned}$

1.2.2. C4.5决策树

解决信息增益的确定，不直接使用信息增益，而是使用增益率来选择最优化分属性

1.2.2.1. 增益率

增益率准则对可取数目较少的属性有所偏好

定义：
$\text { Gain ratio }(D, a)=\frac{\operatorname{Gain}(D, a)}{\operatorname{IV}(a)}$
其中
$\mathrm{IV}(a)=-\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \log _{2} \frac{\left|D^{v}\right|}{|D|}$ 称为属性 $a$ 的固有值

属性 $a$ 的可能取值数目越多(即V越大)，则 $\mathrm{IV}(a)$ 的值通常会越大

算法并不是直接选择增益率最大的候选划分属性，而是使用了一个启发式：先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的.

1.2.3. CART

CART是Classification and Regression Tree的简称，这是一种著名的决策树学习算法，分类和回归任务都可用。

1.2.3.1. 基尼指数

基尼值
$\begin{aligned} \operatorname{Gini}(D) &=\sum_{k=1}^{|\mathcal{Y}|} \sum_{k^{\prime} \neq k} p_{k} p_{k^{\prime}} \\ &=1-\sum_{k=1}^{|\mathcal{Y}|} p_{k}^{2} \end{aligned}$
直观来说， $Gini(D)$ 反映了从数据集D中随机抽取两个样本，其类别标记不一致的概率.因此， $Gini(D)$ 越小，则数据集D的纯度越高.
基尼指数
属性 $a$ 的基尼指数
$\text { Gini index }(D, a)=\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \operatorname{Gini}\left(D^{v}\right)$

最优化分属性
$a_{*}=\underset{a \in A}{\arg \min } \operatorname{Gini}_{\text {index }}(D, a)$

1.2.3.2. 算法

分类
回归

【深度之眼《机器学习》西瓜书训练营第十三期】决策树

决策树

1. 决策树

1.1. 基本流程

1.2. 划分选择

1.2.1. ID3决策树

1.2.1.1. 信息增益

1.2.2. C4.5决策树

1.2.2.1. 增益率

1.2.3. CART

1.2.3.1. 基尼指数

1.2.3.2. 算法

相关推荐