AI理论知识基础(26)-相对熵,KL散度

相对熵(relative entropy),又被称为 KL散度、Kullback-Leibler散度(Kullback-Leibler divergence)或信息散度(information divergence),是两个概率分布(probability distribution)间差异的非对称性度量 。在信息理论中,相对熵等价于两个概率分布的信息熵(Shannon entropy)的差值

相对熵是两个概率分布P和Q差别的非对称性的度量。 相对熵是用来度量使用基于Q的分布来编码服从P的分布的样本所需的额外的平均比特数。典型情况下,P表示数据的真实分布,Q表示数据的理论分布、估计的模型分布、或P的近似分布。
设 是随机变量 上的两个概率分布,则在离散和连续随机变量的情形下,相对熵的定义分别为 :
AI理论知识基础(26)-相对熵,KL散度
AI理论知识基础(26)-相对熵,KL散度
AI理论知识基础(26)-相对熵,KL散度
相对熵可以衡量两个随机分布之间的距离,当两个随机分布相同时,它们的相对熵为零,当两个随机分布的差别增大时,它们的相对熵也会增大。所以相对熵可以用于比较文本的相似度,先统计出词的频率,然后计算相对熵。另外,在多指标系统评估中,指标权重分配是一个重点和难点,也通过相对熵可以处理