信息量-logP、信息熵求期望-ElogP、交叉熵=KL散度=相对熵

学习参考https://blog.csdn.net/u011984148/article/details/99439576

一般情况是D(G)=0.5导致D_loss=-log0.5-log0.5.但是D目的是D(G)=0,进一步D_loss变大=0(分析D(art)=1,D(gan)=0,所以log(D(art)=1)=0, log(1-D(G))=log(1)=0,。。。)
交叉熵loss(二元)
信息量-logP、信息熵求期望-ElogP、交叉熵=KL散度=相对熵
熵是表示信息的混乱程度
信息量-logP、信息熵求期望-ElogP、交叉熵=KL散度=相对熵

KL散度相对熵,但不是距离因为Dkl(p-q)不等于Dkl(q-p)

JS散度,优化KL,使距离对称且值域(0,1)

信息量-logP、信息熵求期望-ElogP、交叉熵=KL散度=相对熵
损失函数分开分析:设伪造的是0,后者是提升G欺骗D的损失,minG梯度下降
信息量log2P(x)-log_2P(x)的期望就是熵:Elog(P(x))=1Ni=0Nlog(Px)Elog(P(x)) =- \frac{1}{N}\sum_{i=0}^Nlog(P_x)
信息量-logP、信息熵求期望-ElogP、交叉熵=KL散度=相对熵
信息量-logP、信息熵求期望-ElogP、交叉熵=KL散度=相对熵
联合熵H(x,y)H(x,y)
条件熵H(x,y)H(x)=H(yx))H(x,y)-H(x)=H(y|x) )
互信息:I(x,y)=H(y)H(yx)I(x,y)=H(y)-H(y|x),带入替换条件熵得到
I(x,y)=H(x)+H(x)H(x,y) I(x,y)=H(x)+H(x)-H(x,y)
Veen图
信息量-logP、信息熵求期望-ElogP、交叉熵=KL散度=相对熵
交叉熵就是相对熵:两个分布的距离Kullback-Leible(KL散度)
概率=频率(从分布中得出概率)
GAN中D的loss就是交叉熵