一、对数

【数学】分析log与熵的常见知识盲点

为什么用log？
1、为了使数据平稳，或者方便处理二阶平稳，非平稳的时间序列计量会麻烦。
2、整个模型度中所有变量取log后，回归系数直接就是弹性，解释起来方便。
3、就是取对数可以压缩数据规模，解决一部分数据异方差的问题，不然很多规模宏大内的数据动不动十几位数字，看起来也很烦人。
最关键的是，取对数不改变数据性质。

二、熵

信息量：衡量一个事件不确定性。一个事件发生概率越大，则不确定性越小，其携带信息量就越小。
　　　　　　　　　　　I(x_o)= -log(p(x_o))
　　　　当p(x_o)=1时（事件x_o必定发生），则该事件信息量为0.
熵：衡量一个系统混乱程度。一个系统不确定性越大，熵值越大。
　　　　　　　　H(x)=-∑_(i=1)^n[ p(x_i) * log(p(x_i)) ]
　　　　　　　　　　　　熵是信息量的总和。
相对熵（KL散度）：同一个随机变量的两个不同分布的距离。
　　　　　D_KL(p,q)= ∑_(i=1)^n[ p(x_i) * log((p(x_i))/(q(x_i))) ]
实际应用中，p(x_i)为真实分布，q(x_i)为预测的分布，为了使它们尽量相同，所以就需要最小化KL散度。
交叉熵：使q(x_i)表示为p(x_i)的困难程度，越小越容易即越相似。
H(p,q)= ∑_(i=1)^n[ p(x_i) * log1/(logq(x_i)) ]=- ∑_(i=1)^n[ p(x_i) * logq(x_i) ]

其实通过公式可知D_KL(p,q)= H(p,q)- H(p )（相对熵=交叉熵-熵），即在实际应用中，最小化交叉熵等价于最小化相对熵，需再H(p )是已知固定的特定情况下。

总结：为了让学到的模型分布q更贴近真实数据分布p，我们最小化模型数据分布与训练数据之间的KL散度，而因为训练数据的分布是固定的，因此最小化KL散度等价于最小化交叉熵。因为等价，而且交叉熵更简单更好计算