01.信息熵(entropy)
如果X是一个离散性随机变量,其概率分布为:P(x)=P(X=x)x∈X,X的熵H(X)为:H(X)=−x∈X∑P(x)log2P(x)
H(X)也可以写成H(p)(bit)
熵又称为自信息(self-information),表示信源x每一个符号(不论发出什么符号)所提供的平均信息量。信息熵表示的是不确定性的度量。
02.联合熵(joint entropy)
如果X,Y是一对离散随机变量(X,Y有一定的关系),X,Y的联合熵H(X,Y)为:
H(X,Y)=−x∈X∑y∈Y∑P(x,y)logP(x,y)
联合熵实际上就是描述一对随机变量平均所需要的信息量。
03.条件熵(conditional entropy)
给定随机变量X的情况下,随机变量Y的条件熵定义为:
H(Y∣X)=−x∈X∑P(x)H(Y∣X=x)=−x∈X∑P(x)[−y∈Y∑P(y∣x)log(P(y∣x)]=−x∈X∑y∈Y∑P(x,y)logP(y∣x)
在此我们也可以做进一步的推导:
H(X,Y)=−x∈X∑y∈Y∑P(x,y)logP(x,y)=−x∈X∑y∈Y∑P(x,y)log[P(x)P(y∣x)]=−x∈X∑y∈Y∑P(x,y)logP(x)−x∈X∑y∈Y∑P(x,y)logP(y∣x)(Notice:y∈Y∑P(x,y)=P(x))=−x∈X∑P(x)log(P(x))−x∈X∑y∈Y∑P(x,y)logP(y∣x)=H(X)+H(Y∣X)
条件熵衡量的是:在一个随机变量X已知的情况下,另一随机变量Y的不确定性。
例:
为了更加便于理解以上概念,博主在网上搜了一道例题供大家参考:
一个二进制信源X发出符号集{0,1},经过离散无记忆新的传输,信道输出用Y表示,由于信道正存在噪声,接收端除收到0和1的符号外,还有不确定符号“2”,已知X的先验概率:
P(x0)=2/3,P(x1)=1/3;
符号的转移概率:P(y0∣x0)=3/4;P(y2∣x0)=1/4;P(y1∣x1)=1/2;P(y2∣x1)=1/2
其对应的图形有:

那么根据这些信息可以计算出:
1.信息熵:H(X)
H(X)=H(2/3,1/3)=−2/3log(2/3)−1/3log(1/3)=0.92bit
2.条件熵:H(Y∣X)
由P(xiyj)=P(xi)P(yj∣xi)=P(yj)P(xi∣yj) (这里使用条件概率公式可以推导)
进而有:联合概率:
P(x0y0)=P(x0)P(y0∣x0)=32∗43=21
P(x0y1)=P(x0)P(y1∣x0)=0
P(x0y2)=P(x0)P(y2∣x0)=32∗41=61
P(x1y0)=P(x1)P(y0∣x1)=0
P(x1y1)=P(x1)P(y1∣x1)=31∗21=61
P(x1y2)=P(x1)P(y2∣x1)=31∗21=61
进而有:
H(Y∣X)=−i,j∑P(xiyj)logP(yj∣xi)=−21log43−31log41−61log21−61log21=0.88bit
3.联合熵:H(XY)
由条件熵中的推导可知:
H(XY)=H(X)+H(Y∣X)=1.8bit/符号
4.信源输出熵:H(Y)
由全概率公式有:i=1∑nP(xiyj)=P(yj)、j=1∑mP(xiyj)=P(xi)
得:
P(y0)=∑P(xiy0)=P(x0y0)+P(x1y0)=21+0=21
P(y1)=∑P(xiy1)=P(x0y1)+P(x1y1)=0+61=61
P(y2)=∑P(xiy2)=P(x0y2)+P(x1y2)=61+61=31
故有:H(Y)=H(21,31,61)=−21log21−31log31−61log61=1.47bit
5.条件熵:H(X∣Y)
这里就介绍思路,具体步骤可以参照以上;依然是根据条件概率和全概率公式计算,先求得y条件下的x的概率,然后再结合条件概率公式求解即可。结果为0.33bit
04.相对熵
相对熵,又叫KL距离,信息增益。有以下定义:
DKL(p∣∣q)=x∈X∑p(x)logq(x)p(x)
相对熵是衡量两个相同事件空间里两个概率分布(函数)的差异程度(而前面的熵,衡量的是随机变量的关系)。当两个概率分布完全相同时,它们的相对熵就是0,当他们的差异增加时,相对熵就会增加。相对熵又叫KL距离,但是它不满足距离定义的3个条件中的两个:(1)非负性(满足);(2)对称性(不满足);(3)三角不等式(不满足)。其物理意义就是如果用q分布来编码p分布(一般就是真实分布)的话,平均每个基本条件编码长度增加了多少比特。
05.互信息
两个随机变量X和Y,它们的互信息定义为:
I(X;Y)=DKL(p(x,y)∣∣p(x)p(y)))=x∈X,y∈Y∑p(x,y)logp(x)(y)p(x,y)
互信息时衡量两个随机变量的相关程度,当X和Y,完全相关时,它们的互信息就是1;反之,它们的互信息就是0。
对于x和y两个具体的事件来说,可以用点互信息(Pointwise Mutual Information)来表示它们的相关程度。
PMI(x;y)=logp(x)p(y)p(x,y)
互信息与熵之间的关系:
I(X;Y)=H(X)−H(X∣Y)=H(Y)−H(Y∣X)
06.交叉熵
H(X,q)=H(X)+DKL(p∣∣q)=−x∑p(x)logq(x)(离散分布时)
其实,就是用分布q来表示X的熵时多少,也就是说用分布q来编码X需要付出多少比特。