学习笔记8：常用损失函数之交叉熵（Cross Entropy）

1.信息量

假设X是一个离散型随机变量，其取值集合为 $X$ ，概率分布函数为 $p (x) = P r (X = x), x \in X$ ，我们定义事件 $X = x_{0}$ 的信息量为： $I (x_{0}) = - l o g (p (x_{0}))$ 可以理解为，一个事件发生的概率越大，则它所携带的信息量就越小，而当p(x0)=1时，熵将等于0，也就是说该事件的发生不会导致任何信息量的增加。

2.熵的概念

对于一个随机变量X而言，它的所有可能取值的信息量的期望E[I(x)]就称为熵。
X的熵的定义为：

$H (X) = E_{p} \log \frac{1}{p (x)} = - \sum_{x \in X} p (x) \log p (x)$

如果p(x)是连续型随机变量的pdf，则熵定义为：

$H (X) = - \int_{x \in X} p (x) \log p (x) d x$

为了保证有效性，这里约定当p(x)→0时,有 $p (x) \to 0 时, 有 p (x) \log p (x) \to 0$

当X为0-1分布时，熵与概率p的关系如下图：
学习笔记8：常用损失函数之交叉熵（Cross Entropy）

可以看出，当两种取值的可能性相等时，不确定度最大（此时没有任何先验知识），这个结论可以推广到多种取值的情况。在图中也可以看出，当p=0或1时，熵为0，即此时X完全确定。
熵的单位随着公式中log运算的底数而变化，当底数为2时，单位为“比特”(bit)，底数为e时，单位为“奈特”。

3.相对熵

相对熵(relative entropy)又称为KL散度（Kullback-Leibler divergence），KL距离，是两个随机分布间距离的度量。记为 $D_{K L} (p | | q)$ 。它度量当真实分布为p时，假设分布q的无效性。

$D_{K L} (p | | q) = E_{p} [\log \frac{p (x)}{q (x)}] = \sum_{x \in X} p (x) \log \frac{p (x)}{q (x)}$

$= \sum_{x \in X} [p (x) \log p (x) - p (x) \log q (x)]$

$= \sum_{x \in X} p (x) \log p (x) - \sum_{x \in X} p (x) \log q (x)$

$= - H (p) - \sum_{x \in X} p (x) \log q (x)$

$= - H (p) + E_{p} [- \log q (x)]$

$= H_{p} (q) - H (p)$

显然，当p=q时,两者之间的相对熵 $D_{K L} (p | | q) = 0$

4.交叉熵

交叉熵容易跟相对熵搞混，二者联系紧密，但又有所区别。假设有两个分布p，q，则它们在给定样本集上的交叉熵定义如下：

$C E H (p, q) = E_{p} [- \log q] = - \sum_{x \in X} p (x) \log q (x) = H (p) + D_{K L} (p | | q)$

举例来讲，对于一个二分类问题，我们可以将真实概率表达为 p∈{y,1−y}，并且将预测概率表达为 $q \in {\hat{y}, 1 - \hat{y}}$ 。这样的话，我们可以通过交叉熵来测量 p 和 q 之间的相似度：

$H (p, q) = - \sum_{i} p_{i} \log q_{i} = - y \log \hat{y} - (1 - y) \log (1 - \hat{y})$

参考：https://blog.****.net/rtygbwwwerr/article/details/50778098
https://www.zhihu.com/question/41252833

学习笔记8：常用损失函数之交叉熵（Cross Entropy）

1.信息量

2.熵的概念

3.相对熵

4.交叉熵

相关推荐