生成式对抗网络(Generative Adversarial Networks, GANs)

1 原始的 GANs

1.1 GANs 的结构

GANs 的结果图如下所示:

生成式对抗网络(Generative Adversarial Networks, GANs)

生成式对抗网络 GANs 最重要的两个部分为:

  • 生成器(Generator) :用于生成“假”样本。生成器从先验分布中采得随机信号,经过神经网络的变换,得到模拟样本。
  • 判别器(Discriminator) :用于判断输入的样本是真实的还是合成的。判别器既接收来自实际数据集的真实样本,也接收来自生成器的模拟样本,判别器需要判断输入的样本是真实数据还是生成器的模拟(假)数据。

从上面可以看出,生成器和判别器是对抗的关系,生成器要尽可能生成出让判别器失败的样本,而判别器要尽可能识别出生成器的假样本。GANs 就是通过这种对抗的关系,让生成器和判别器不断提升。理想状态下,生成器和判别器最终能达到一种平衡,两者都趋于完美,都没有更进一步的空间。

1.2 GANs 的训练过程

GANs 采用生成器和判别器交替优化的方式:

(1)固定生成器 G G G,训练判别器 D D D

固定生成器 G G G,然后利用生成器随机模拟产生样本 G ( z ) G(z) G(z) 作为负样本( z z z 是一个随机向量),并从真实数据集中采样获得正样本 X X X,将这些正负样本输入到判别器 D D D 中,根据判别器的输出(即 D ( X ) D(X) D(X) D ( G ( z ) ) D(G(z)) D(G(z)) )和样本标签来计算误差,最后利误差反向传播算法来更新判别器的参数,如下图所示

生成式对抗网络(Generative Adversarial Networks, GANs)

(2)固定判别器 D D D,训练生成器 G G G

固定判别器 D D D,然后利用当前生成器 G G G 随机模拟产生样本 G ( z ) G(z) G(z),并输入到判别器 D D D 中;根据判别器的输出 D ( G ( z ) ) D(G(z)) D(G(z)) 和样本标签来计算误差,最后利用误差反向传播算法来更新生成器 G G G 的参数,如下图所示:

生成式对抗网络(Generative Adversarial Networks, GANs)

1.3 GANs 的训练模型

先给出 GANs 的公式:

min ⁡ G max ⁡ D V ( D , G ) = E x ∼ p d a t a ( x ) [ log ⁡ D ( x ) ] + E z ∼ p z ( z ) [ log ⁡ D ( G ( z ) ) ] (1) \min_G \max_D V(D,G)=E_{x\sim p_{data}(x)}[\log D(x)] + E_{z\sim p_{z}(z)}[\log D(G(z))] \tag{1} GminDmaxV(D,G)=Expdata(x)[logD(x)]+Ezpz(z)[logD(G(z))](1)

训练模型中需要用到的符号有:

  • G G G:生成器模型,通常为一个多层感知机结构的可微函数
  • D D D:判别器模型
  • x x x:判别器的输入,包括真实数据样本和生成器的输出
  • z z z:生成器输入的噪声变量,则生成器的输出为 x = G ( z ) x=G(z) x=G(z)
  • p d a t a ( x ) ≐ p ( x ∣ d a t a ) p_{data}(x) \doteq p(x|data) pdata(x)p(xdata):表示从实际数据集得到样本 x x x 的概率
  • p z ( z ) p_{z}(z) pz(z):生成器输入的噪声变量 z z z 的先验分布
  • p g ( x ) ≐ p ( x ∣ g ) p_{g}(x) \doteq p(x|g) pg(x)p(xg):生成器输出的样本 x x x 的概率
  • p s r c ( d a t a ) p_{src}(data) psrc(data) p s r c ( g ) p_{src}(g) psrc(g):判别器模型输入样本中来自真实数据和来自生成器的概率,一般采用一半真实数据、一半假数据的方式,即: p s r c ( d a t a ) = p s r c ( g ) = 1 2 p_{src}(data)=p_{src}(g)=\frac{1}{2} psrc(data)=psrc(g)=21
  • G ( z ; θ g ) G(z;\theta_g) G(z;θg) θ g \theta_g θg 为生成器的多层感知机的参数, G ( z ; θ g ) G(z;\theta_g) G(z;θg) 代表生成器模型的输出空间
  • D ( x ; θ d ) D(x;\theta_d) D(x;θd) θ d \theta_d θd 为判别器的多层感知机的参数, D ( x ; θ d ) D(x;\theta_d) D(x;θd) 为判别器的输出,是一个标量值
  • D ( x ) D(x) D(x):判别器预测输入样本 x x x 来自于真实数据集的概率
  • ( G ∗ , D ∗ ) (G^*,D^*) (G,D):求得的解,即达到最终纳什均衡点时的生成器和判别器

1.3.1 生成器 G G G 固定,寻求当下最优的判别器 D G ∗ D_G^* DG

判别器 D D D 实质上解决的是一个二分类问题,其损失函数可以用 负对数似然(Negative Log-Likelihood,NLL),也称 绝对交叉熵损失(Categorical Cross-Entropy Loss) 来表示:

L ( D ) = − ∫ p ( x ) [ p ( d a t a ∣ x ) log ⁡ D ( x ) + p ( g ∣ x ) log ⁡ ( 1 − D ( x ) ) ] d x (2) L(D)=-\int p(x)[p(data|x) \log D(x) + p(g|x) \log (1-D(x))]dx \tag{2} L(D)=p(x)[p(datax)logD(x)+p(gx)log(1D(x))]dx(2)

其中:

  • p ( d a t a ∣ x ) p(data|x) p(datax):样本 x x x 属于真实数据集的概率
  • p ( g ∣ x ) p(g|x) p(gx):样本 x x x 属于生成器的概率

我们可以推出:

p ( x ) p ( d a t a ∣ x ) = p s r c ( d a t a ) p ( x ∣ d a t a ) = p s r c ( d a t a ) p d a t a ( x ) = 1 2 p d a t a ( x ) p(x)p(data|x)=p_{src}(data)p(x|data)=p_{src}(data)p_{data}(x)=\frac{1}{2}p_{data}(x) p(x)p(datax)=psrc(data)p(xdata)=psrc(data)pdata(x)=21pdata(x)

p ( x ) p ( g ∣ x ) = p s r c ( g ) p ( x ∣ g ) = p s r c ( g ) p g ( x ) = 1 2 p g ( x ) p(x)p(g|x)=p_{src}(g)p(x|g)=p_{src}(g)p_{g}(x)=\frac{1}{2}p_{g}(x) p(x)p(gx)=psrc(g)p(xg)=psrc(g)pg(x)=21pg(x)

代入公式 (2)则有:

L ( D ) = − ∫ p ( x ) [ p ( d a t a ∣ x ) log ⁡ D ( x ) + p ( g ∣ x ) log ⁡ ( 1 − D ( x ) ) ] d x = − ∫ [ 1 2 p d a t a ( x ) log ⁡ D ( x ) + 1 2 p g ( x ) log ⁡ ( 1 − D ( x ) ) ] d x = − 1 2 ( E x ∼ p d a t a ( x ) [ log ⁡ D ( x ) ] + E x ∼ p g ( x ) [ log ⁡ ( 1 − D ( x ) ) ] ) (3) \begin{aligned} L(D) &= -\int p(x)[p(data|x) \log D(x) + p(g|x) \log (1-D(x))]dx \\ &= -\int [\frac{1}{2}p_{data}(x) \log D(x) + \frac{1}{2}p_{g}(x) \log (1-D(x))]dx \\ &= -\frac{1}{2}(E_{x\sim p_{data}(x)}[\log D(x)] + E_{x\sim p_{g}(x)}[\log (1-D(x))]) \tag{3} \end{aligned} L(D)=p(x)[p(datax)logD(x)+p(gx)log(1D(x))]dx=[21pdata(x)logD(x)+21pg(x)log(1D(x))]dx=21(Expdata(x)[logD(x)]+Expg(x)[log(1D(x))])(3)

因此,寻求当下最优的判别器 D G ∗ D_G^* DG 就是最大化以下值函数:

V ( D ) = E x ∼ p d a t a ( x ) [ log ⁡ D ( x ) ] + E x ∼ p g ( x ) [ log ⁡ ( 1 − D ( x ) ) ] (4) V(D)=E_{x\sim p_{data}(x)}[\log D(x)] + E_{x\sim p_{g}(x)}[\log (1-D(x))] \tag{4} V(D)=Expdata(x)[logD(x)]+Expg(x)[log(1D(x))](4)

对于单个样本 x x x,则最大化值函数:

max ⁡ D p d a t a ( x ) log ⁡ D ( x ) + p g ( x ) [ log ⁡ ( 1 − D ( x ) ) ] (5) \max_D p_{data}(x)\log D(x) + p_{g}(x)[\log (1-D(x))] \tag{5} Dmaxpdata(x)logD(x)+pg(x)[log(1D(x))](5)

p d a t a ( x ) = a p_{data}(x)=a pdata(x)=a p g ( x ) = b p_{g}(x)=b pg(x)=b D ( x ) = D D(x)=D D(x)=D,则式(5)可以写作:

f ( D ) = a D + b D f(D)= aD + bD f(D)=aD+bD

令其对 D D D 的导数为零有

d f ( D ) d D = a 1 D − b 1 1 − D = 0 \frac{df(D)}{dD}= a \frac{1}{D} - b \frac{1}{1-D}=0 dDdf(D)=aD1b1D1=0

从而有:

D ∗ = a a + b D^*=\frac{a}{a+b} D=a+ba

即:

D ∗ ( x ) = p d a t a ( x ) p d a t a ( x ) + p g ( x ) (6) D^*(x)=\frac{p_{data}(x)}{p_{data}(x)+p_{g}(x)} \tag{6} D(x)=pdata(x)+pg(x)pdata(x)(6)

在公式(6)外面套上对 x x x 的积分,解由单点变成函数解:

D G ∗ ( x ) = p d a t a p d a t a + p g (7) D^*_G(x)=\frac{p_{data}}{p_{data}+p_{g}} \tag{7} DG(x)=pdata+pgpdata(7)

将公式(7)代入公式(4)中,有:

V ( D G ∗ ( x ) ) = E x ∼ p d a t a ( x ) [ log ⁡ p d a t a p d a t a + p g ] + E x ∼ p g ( x ) [ log ⁡ ( 1 − p d a t a p d a t a + p g ) ] = ∫ x p d a t a ( x ) log ⁡ p d a t a p d a t a + p g d x + ∫ x p g ( x ) log ⁡ p g p d a t a + p g d x = ∫ x p d a t a ( x ) log ⁡ [ 1 2 × p d a t a ( p d a t a + p g ) / 2 ] d x + ∫ x p g ( x ) log ⁡ [ 1 2 × p g ( p d a t a + p g ) / 2 ] d x = − 2 log ⁡ 2 + ∫ x p d a t a ( x ) log ⁡ [ p d a t a ( p d a t a + p g ) / 2 ] d x + ∫ x p g ( x ) log ⁡ [ p g ( p d a t a + p g ) / 2 ] d x \begin{aligned} V(D^*_G(x)) &= E_{x\sim p_{data}(x)}[\log \frac{p_{data}}{p_{data}+p_{g}} ] + E_{x\sim p_{g}(x)}[\log (1-\frac{p_{data}}{p_{data}+p_{g}} )] \\ &= \int_x p_{data}(x) \log \frac{p_{data}}{p_{data}+p_{g}} dx + \int_x p_{g}(x) \log \frac{p_{g}}{p_{data}+p_{g}} dx \\ &= \int_x p_{data}(x) \log [\frac{1}{2} \times \frac{p_{data}}{(p_{data}+p_{g})/2}] dx + \int_x p_{g}(x) \log [\frac{1}{2} \times \frac{p_{g}}{(p_{data}+p_{g})/2}] dx \\ &= -2\log 2 + \int_x p_{data}(x) \log [\frac{p_{data}}{(p_{data}+p_{g})/2}] dx + \int_x p_{g}(x) \log [\frac{p_{g}}{(p_{data}+p_{g})/2}] dx \end{aligned} V(DG(x))=Expdata(x)[logpdata+pgpdata]+Expg(x)[log(1pdata+pgpdata)]=xpdata(x)logpdata+pgpdatadx+xpg(x)logpdata+pgpgdx=xpdata(x)log[21×(pdata+pg)/2pdata]dx+xpg(x)log[21×(pdata+pg)/2pg]dx=2log2+xpdata(x)log[(pdata+pg)/2pdata]dx+xpg(x)log[(pdata+pg)/2pg]dx

KL 散度(Kullback–Leibler Divergence)
又称相对熵(Relative Entropy),两个分布 P P P Q Q Q 的 KL 散度记为 K L ( P ∥ Q ) KL(P\| Q) KL(PQ),计算公式为:
K L ( P ∥ Q ) = E x ∼ P ( x ) [ log ⁡ P ( x ) Q ( x ) ] = ∑ i = 1 n [ P ( x i ) log ⁡ P ( x i ) Q ( x i ) ] KL(P\| Q)=E_{x\sim P(x)}[\log\frac{P(x)}{Q(x)}]=\sum_{i=1}^n [P(x_i) \log\frac{P(x_i)}{Q(x_i)}] KL(PQ)=ExP(x)[logQ(x)P(x)]=i=1n[P(xi)logQ(xi)P(xi)]
JS 散度(Jensen–Shannon Divergence)
两个分布 P P P Q Q Q 的 JS 散度记为 J S ( P ∥ Q ) JS(P\| Q) JS(PQ),计算公式为:
J S ( P ∥ Q ) = 1 2 K L ( P ∥ P + Q 2 ) + 1 2 K L ( Q ∥ P + Q 2 ) JS(P\| Q)=\frac{1}{2}KL(P\| \frac{P+Q}{2}) + \frac{1}{2}KL(Q \| \frac{P+Q}{2}) JS(PQ)=21KL(P2P+Q)+21KL(Q2P+Q)

V ( D G ∗ ( x ) ) = − 2 log ⁡ 2 + ∫ x p d a t a ( x ) log ⁡ [ p d a t a ( p d a t a + p g ) / 2 ] d x + ∫ x p g ( x ) log ⁡ [ p g ( p d a t a + p g ) / 2 ] d x = − 2 log ⁡ 2 + K L ( p d a t a ∥ p d a t a + p g 2 ) + K L ( p g ∥ p d a t a + p g 2 ) = − 2 log ⁡ 2 + 2 J S ( p d a t a ∥ p g ) ∈ [ − 2 log ⁡ 2 , 0 ] \begin{aligned} V(D^*_G(x)) &= -2\log 2 + \int_x p_{data}(x) \log [\frac{p_{data}}{(p_{data}+p_{g})/2}] dx + \int_x p_{g}(x) \log [\frac{p_{g}}{(p_{data}+p_{g})/2}] dx \\ &= -2\log 2 + KL(p_{data} \| \frac{p_{data}+p_{g}}{2}) + KL(p_{g} \| \frac{p_{data}+p_{g}}{2}) \\ &= -2\log 2 + 2 JS(p_{data} \| p_{g}) \\ & \in [-2\log 2, 0] \end{aligned} V(DG(x))=2log2+xpdata(x)log[(pdata+pg)/2pdata]dx+xpg(x)log[(pdata+pg)/2pg]dx=2log2+KL(pdata2pdata+pg)+KL(pg2pdata+pg)=2log2+2JS(pdatapg)[2log2,0]

固定判别器为 D G ∗ D_G^* DG 时,求生成器 G G G 的值函数可以写作:

min ⁡ G V ( G , D G ∗ ( x ) ) = min ⁡ G { − 2 log ⁡ 2 + 2 J S ( p d a t a ∥ p g ) } \min_G V(G, D^*_G(x))=\min_G\{ -2\log 2 + 2 JS(p_{data} \| p_{g}) \} GminV(G,DG(x))=Gmin{2log2+2JS(pdatapg)}

显然,当 p d a t a = p g p_{data} = p_{g} pdata=pg 时, J S ( p d a t a ∥ p g ) = 0 JS(p_{data} \| p_{g})=0 JS(pdatapg)=0,最优解 G ∗ ( z ) = x ∼ p d a t a ( x ) G^*(z)=x \sim p_{data}(x) G(z)=xpdata(x) D ∗ ( x ) ≡ 1 2 D^*(x) \equiv \frac{1}{2} D(x)21,值函数 V ( G ∗ , D ∗ ) = − 2 l o g 2 V(G^*,D^*)=-2log2 V(G,D)=2log2

1.3.2 判别器 D D D 固定,寻求当下最优的判别器 G ∗ G^* G

G ′ G' G 为上一步的生成器, D D D 为在 G ′ G' G 下求得的最优判别器 D G ′ ∗ ( x ) D^*_{G'}(x) DG(x),那么,求解最优 G ∗ G^* G 的过程为:

a r g min ⁡ G V ( G , D G ′ ∗ ) = a r g min ⁡ G [ K L ( p g ∥ p d a t a + p g ′ 2 ) − K L ( p g ∥ p g ′ ) ] arg \min_G V(G,D^*_{G'})=arg \min_G [KL(p_g \| \frac{p_{data}+p_{g'}}{2})-KL(p_g \| p_{g'})] argGminV(G,DG)=argGmin[KL(pg2pdata+pg)KL(pgpg)]

由此可以得出两个结论:

  • 优化 G G G 的过程是让 G G G 远离前一步的 G ′ G' G,同时接近分布 p d a t a + p g ′ 2 \frac{p_{data}+p_{g'}}{2} 2pdata+pg
  • 达到均衡点时 p g ′ = p d a t a p_{g'}=p_{data} pg=pdata,有 a r g min ⁡ G V ( G , D G ′ ∗ ) = a r g min ⁡ G 0 arg \min_G V(G,D^*_{G'})=arg \min_G 0 argminGV(G,DG)=argminG0,如果用这时的判别器去训练一个新的生成器 G n e w G_{new} Gnew,理论上可能训练不出来。

1.4 GANs 总结

(1)GANs 本质上式在最小化生成分布与真实数据分布的 JS 距离,当算法收敛时生成器刻画的分布就是真实数据的分布。

(2)发明 GANs 的初衷是为了更好地解决概率生成模型的估计问题

传统概率生成模型方法(如:马尔可夫随机场、 贝叶斯网络)会涉及大量难以完成的概率推断计算,而 GANs 可以避开这类计算。

如果随机变量 Z Z Z X X X 之间满足某种映射关系 X = f ( Z ) X=f(Z) X=f(Z),那么它们的概率分布 p X ( X ) p_X(X) pX(X) p Z ( Z ) p_Z(Z) pZ(Z) 也存在某种映射关系。当 Z , X ∈ R Z,X\in R Z,XR 都是一维随机变量时, p X = d f ( Z ) d X p Z p_X=\frac{df(Z)}{dX}p_Z pX=dXdf(Z)pZ;当 Z , X Z,X Z,X 都是高维随机变量时,导数变成雅克比矩阵 p X = J p Z p_X=Jp_Z pX=JpZ。 因此,已知 Z Z Z 的分布,我们对随机变量间的转换函数 f f f 直接建模,就唯一确定了 X X X 的分布。

这样,不仅避开了大量复杂的概率计算,而且给 f f f 更大的发挥空间,我们可以用神经网络来训练 f f f

1.5 GANs 存在的问题

在实际训练中,早期阶段生成器 G G G 很差,生成的模拟样本很容易被判别器 D D D 识别,使得 D D D 回传给 G G G 的梯度极小,达不到训练的目的,这个现象称为 优化饱和

原因分析

这里将 D D D 的 Sigmoid 输出层的前一层记为 o o o,那么 D ( x ) D(x) D(x) 就可以表示成 D ( x ) = S i g m o i d ( o ( x ) ) D(x)=Sigmoid(o(x)) D(x)=Sigmoid(o(x)),此时有:

∇ D ( x ) = ∇ S i g m o i d ( o ( x ) ) = D ( x ) ( 1 − D ( x ) ) ∇ o ( x ) \nabla D(x)= \nabla Sigmoid(o(x)) = D(x)(1-D(x))\nabla o(x) D(x)=Sigmoid(o(x))=D(x)(1D(x))o(x)

因此训练 G G G 的梯度为:

∇ log ⁡ ( 1 − D ( G ( z ; θ g ) ) ) = − D ( G ( z ; θ g ) ) ∇ o ( G ( z ; θ g ) ) \nabla \log(1-D(G(z;\theta_g))) = -D(G(z;\theta_g))\nabla o(G(z;\theta_g)) log(1D(G(z;θg)))=D(G(z;θg))o(G(z;θg))

D D D 能很好的分类样本时,意味着认错假样本的概率几乎为零,即 D ( G ( z ; θ g ) ) → 0 D(G(z;\theta_g)) \rightarrow 0 D(G(z;θg))0,假定 ∣ o ( G ( z ; θ g ) ) ∣ < C |o(G(z;\theta_g))|<C o(G(z;θg))<C C C C 为一个常数),则可推出:

lim ⁡ D ( G ( z ; θ g ) ) → 0 ∇ log ⁡ ( 1 − D ( G ( z ; θ g ) ) ) = − lim ⁡ D ( G ( z ; θ g ) ) → 0 D ( G ( z ; θ g ) ) ∇ o ( G ( z ; θ g ) ) = 0 \lim_{D(G(z;\theta_g)) \rightarrow 0} \nabla \log(1-D(G(z;\theta_g)))=-\lim_{D(G(z;\theta_g)) \rightarrow 0} D(G(z;\theta_g))\nabla o(G(z;\theta_g))=0 D(G(z;θg))0limlog(1D(G(z;θg)))=D(G(z;θg))0limD(G(z;θg))o(G(z;θg))=0

G G G 获得的梯度基本为零,因此 D D D 强大后对 G G G 的帮助反而很小。

解决方法

解决方案是将 log ⁡ ( 1 − D ( G ( z ; θ g ) ) ) \log(1-D(G(z;\theta_g))) log(1D(G(z;θg))) 变为 log ⁡ ( D ( G ( z ; θ g ) ) \log(D(G(z;\theta_g)) log(D(G(z;θg)),形式上有一个负号的差别,故让后者最大等效于让前者最小,二者在最优解相同。

更改后的目标函数的梯度为:

log ⁡ ( D ( G ( z ; θ g ) ) ) = ( 1 − D ( G ( z ; θ g ) ) ) ∇ o ( G ( z ; θ g ) ) lim ⁡ D ( G ( z ; θ g ) ) → 0 ∇ log ⁡ ( D ( G ( z ; θ g ) ) ) = ∇ o ( G ( z ; θ g ) ) \begin{aligned} \log(D(G(z;\theta_g))) &= (1-D(G(z;\theta_g))) \nabla o(G(z;\theta_g)) \\ \lim_{D(G(z;\theta_g)) \rightarrow 0} \nabla \log(D(G(z;\theta_g))) &= \nabla o(G(z;\theta_g)) \end{aligned} log(D(G(z;θg)))D(G(z;θg))0limlog(D(G(z;θg)))=(1D(G(z;θg)))o(G(z;θg))=o(G(z;θg))

因此,更改后即使 D ( G ( z ; θ g ) ) → 0 D(G(z;\theta_g)) \rightarrow 0 D(G(z;θg))0 ∇ log ⁡ ( D ( G ( z ; θ g ) ) ) \nabla \log(D(G(z;\theta_g))) log(D(G(z;θg))) 也不会消失,仍能给生成器提供有效的梯度。

(GAN 的变种算法以后再继续补充)

2 WGAN

原始 GAN 的判别器是最小化生成分布与真实数据分布的 JS 距离,WGAN算法的改进在于它使用的是 Wasserstein 距离,也称 推土机距离(Earth Mover Distance)

W ( P , Q ) = inf ⁡ γ ∼ ∏ ( P , Q ) E ( x , y ) ∼ γ [ ∥ x − y ∥ ] W(P,Q)=\inf_{\gamma \sim \prod(P,Q)} E_{(x,y) \sim \gamma}[\|x-y\|] W(P,Q)=γ(P,Q)infE(x,y)γ[xy]

3 DCGAN

使用卷积神经网络的GAN。

4 ALI(Adversarially Learned Inference)

将生成网络和推断网络一起放到 GANs 的框架下,进而联合训练生成模型和推断模型。

5 IRGAN(Information Retrieval GAN)

利用 GANs 框架生成离散样本数据

6 SeqGAN(Sequence GAN)

利用 GANs 框架生成文本序列