最大熵与正态分布
最大熵与正态分布
Question
已知随机分布的均值和方差,求使得熵最大的概率分布。
求解
首先将问题翻译成数学语言:
其中p(x)为概率分布密度函数,信息熵表示变量的确定性程度,熵越大确定性程度越低,也即表示未知越多。在信息论中,最大熵原理是一个非常重要的原则,也是奥卡姆剃刀原则在信息论中的应用,用一句通俗的话讲,就是如果你不知道事件的真相,那么你只能按照已知的信息去推测所有的可能和可能性,而不是直接去脑补。
这是一个很常见的变分问题,可以使用乘子法求解:
最后我们得到了正态分布,这正好从侧面解释了自然界偏好正态分布,是因为正态分布可以在均值和方差确定的情况使得信息熵最大。
Conclusions
- 若已知一个随机变量的取值空间,那么熵最大的分布是均匀分布;
- 若已知一个随机变量的均值和方差,那么熵最大的分布则是正态分布;
- 在现实中,我们通常很容易统计到一个变量的均值和方差,难怪自然界偏好正态分布;
- 我们又得到了一个获得正态分布的方法 – 从信息熵最大的角度获得正态分布。