【数学】分析log与熵的常见知识盲点

一、对数

【数学】分析log与熵的常见知识盲点

  • 为什么用log?
    1、为了使数据平稳,或者方便处理二阶平稳,非平稳的时间序列计量会麻烦。
    2、整个模型度中所有变量取log后,回归系数直接就是弹性,解释起来方便。
    3、就是取对数可以压缩数据规模,解决一部分数据异方差的问题,不然很多规模宏大内的数据动不动十几位数字,看起来也很烦人。
    最关键的是,取对数不改变数据性质。

二、熵

  1. 信息量:衡量一个事件不确定性。一个事件发生概率越大,则不确定性越小,其携带信息量就越小。
               I(x_o)= -log(p(x_o))
        当p(x_o)=1时(事件x_o必定发生),则该事件信息量为0.

  2. 熵:衡量一个系统混乱程度。一个系统不确定性越大,熵值越大。
            H(x)=-∑_(i=1)^n[ p(x_i) * log(p(x_i)) ]
                熵是信息量的总和。

  3. 相对熵(KL散度):同一个随机变量的两个不同分布的距离。
         D_KL(p,q)= ∑_(i=1)^n[ p(x_i) * log((p(x_i))/(q(x_i))) ]
    实际应用中,p(x_i)为真实分布,q(x_i)为预测的分布,为了使它们尽量相同,所以就需要最小化KL散度

  4. 交叉熵:使q(x_i)表示为p(x_i)的困难程度,越小越容易即越相似。
    H(p,q)= ∑_(i=1)^n[ p(x_i) * log1/(logq(x_i)) ]=- ∑_(i=1)^n[ p(x_i) * logq(x_i) ]

其实通过公式可知D_KL(p,q)= H(p,q)- H(p )(相对熵=交叉熵-熵),即在实际应用中,最小化交叉熵等价于最小化相对熵,需再H(p )是已知固定的特定情况下。

总结:为了让学到的模型分布q更贴近真实数据分布p,我们最小化 模型数据分布 与 训练数据之间的KL散度,而因为训练数据的分布是固定的,因此最小化KL散度等价于最小化交叉熵。因为等价,而且交叉熵更简单更好计算