深度学习-- > Improved GAN-- > f-GAN

上一篇博文中详细总结和推导了 $G A N$ 网络的原理，但是如此的 $G A N$ 网络有他的不足之处，本博文将详细说明其不足之处，以及解决和提高的办法。

original GAN 不足之处

简单回顾GAN网络原理

蓝色的线表示： $G e n e r a t e d d i s t r i b u t i o n$
绿色的线表示： $D a t a (t a r g e t) d i s t r i b u t i o n$
红色的线表示： $D i s c r i m i n a t o r$

在上图中的左上第一个子图中， $g e n e r a t o r$ 生成的数据分布与 $D a t a d i s t r i b u t i o n$ 相差较大，则 $D i s c r i m i n a t o r$ 也即是 $D (x)$ 给 $G e n e r a t e d d i s t r i b u t i o n$ 以较低的概率，而给 $D a t a (t a r g e t) d i s t r i b u t i o n$ 以较高的概率，由此得到 $D (X)$ 的曲线走向。在左二子图中，更新后的 $g e n e r a t o r$ 可能会因为更新步伐太大，移到了 $D a t a d i s t r i b u t i o n$ 的右边，由此 $D (X)$ 更新如图， $G 、 D$ 如此不断的更新迭代，最终 $G e n e r a t e d d i s t r i b u t i o n$ 与 $D a t a (t a r g e t) d i s t r i b u t i o n$ 重合，那么此时 $D (X)$ 就变成了一条水平直线。

存在的问题

我们知道整个 $G A N$ 网络的目标都是在：
深度学习-- > Improved GAN-- > f-GAN

通过不断的更新 $D 、 G$ 来得到比较好的 $G e n e r a t o r$ ，也就是上式的 $G^{*}$ ，那么在更新 $D$ 时：

m a x V (G, D) = - 2 l o g 2 + 2 J S D (P_{d a t a} (X) | | P_{G} (X))

我们是不断的通过

M i n i z e m a x V (G, D)

来更新

G

，那么问题来了，这个

m a x V (G, D)

是否能准确的反映

P_{d a t a}

与

P_{G}

之间的差距呢？

深度学习-- > Improved GAN-- > f-GAN

由上图可以看出，当 $P_{G}$ 与 $P_{d a t a}$ 无重合时（可能是sample出的样本没有重合），即使两者的 $d i s t r i b u t i o n$ 在改进，其 $J S (P_{G} | | P_{d a t a})$ 始终为 $l o g 2$ ，那么在更新 $G$ 参数时，没有改进的动力。很难得到很好的 $G e n e r a t o r$ 。

Unified Framework

f-divergence

之前我们介绍的 $G A N$ 网络中的 $D i s c r i m i n a t o r$ 只是和 $J e n s e n - S h a n n o n d i v e r g e n c e$ 有关，论文 $T r a i n i n g G e n e r a t i v e N e u r a l S a m p l e r s u s i n g V a r i a t i o n a l D i v e r g e n c e M i n i m i z a t i o n$ 中介绍了 $f - d i v e r g e n c e$ ，其 $D i s c r i m i n a t o r$ 不只是仅仅由 $J e n s e n - S h a n n o n d i v e r g e n c e$ 来定义，其核心的一句话就是 $y o u c a n u s e a n y f - d i v e r g e n c e$

我们假设有两个分布，分别 $p$ 和 $q$ ，代入到 $G A N$ 网络中，就是之前说的 $P_{d a t a}$ 和 $P_{G}$ ，其中 $p (x)$ 和 $q (x)$ 就是 $s a m p l e$ 出来的样本的概率。由此我们可以这样来定义 $f - d i v e r g e n c e$ ：

D_{f} (P | | Q) = \int_{x} q (x) f (\frac{p (x)}{q (x)}) d x

显然这样定义的 $D_{f} (P | | Q)$ 必须能起到衡量 $P 、 Q$ 分布的拟合程度，并且值越小拟合的越好。那么就必须具备以下条件：

$f$ 函数必须是凸的
$f (1) = 0$

那么可以得到，当对于所有的 $x$ 都有 $P (x) == Q (x)$ 时： $D_{f} (P | | Q) = 0$ ，这个时候显然拟合的最好，并且是 $s m a l l e s t D_{f} (P | | Q)$ 。

再由凸函数的特性可得：

D_{f} (P | | Q) = \int_{x} q (x) f (\frac{p (x)}{q (x)}) d x \geq f (\int_{x} q (x) \frac{p (x)}{q (x)} d x) = f \int_{x} p (x) = f (1)

故可得到 $D_{f} (P | | Q) \geq f (1)$ 。

其实 $K L d i v e r g e n c e$ 就可以理解为一种 $f - d i v e r g e n c e$ 。那么 $f$ 可以选哪些函数呢？只要符合上面的要求即可：

深度学习-- > Improved GAN-- > f-GAN

Fenchel Conjugate

首先假设 $f (x)$ 是一个凸函数，定义如下公式：

f^{*} (t) = \underset{x ⫅ d o m (f)}{m a x} {x t - f (x)}

得到 $f^{*} (t)$ ，这里固定住不同的 $x 例如 (x_{1}, x_{2}, . .)$ ，都能得到不同的关于 $t$ 的线性函数，其图可以如下：

深度学习-- > Improved GAN-- > f-GAN

然后取其 $m a x$ ，就得到上图红色的那条线。由此可以得到一个结论：

若 f (x) 为 凸 函 数 ， 则 必 存 在 其 对 应 的 f^{*} (t) ， 且 也 是 凸 函 数

我们把这样的 $f^{*} (t)$ 叫做 $f (x)$ 的 $c o n j u g a t e f u n c t i o n$

举个具体的例子，当 $f (x) = x l o g x$ 时，可得 $f^{*} (t)$ ：

深度学习-- > Improved GAN-- > f-GAN

那么如何得出当 $f (x) = x l o g x$ 时， $f^{*} (t)$ 的具体数学公式呢？

深度学习-- > Improved GAN-- > f-GAN

那么可得结论，当 $f (x) = x l o g x$ 时，其 $c o n j u g a t e f u n c t i o n f^{*} (t) = e x p (t - 1)$ ，也即：

f (x) = x l o g x \leftrightarrow f^{*} (t) = e x p (t - 1)

这里需要注意： $(f^{*})^{*} = f$

Connect to GAN

那么上面讲的与 $G A N$ 有什么关系呢？
假设 $f (x) 为凸函数，且 f (1) = 0$ ，则由上面的推导我们可以得出：

f^{*} (t) = \underset{x ⫅ d o m (f)}{m a x} {x t - f (x)} \leftrightarrow f (x) = \underset{t ⫅ d o m (f^{*})}{m a x} {t x - f^{*} (t)}

在 $f (x) = \underset{t ⫅ d o m (f^{*})}{m a x} {t x - f^{*} (t)}$ 中，我们可以令 $x = \frac{p (x)}{q (x)}$ ，再由上面已经得出的 $f - d i v e r g e n c e$ 条件可得：

D_{f} (P | | Q) = \int_{x} q (x) f (\frac{p (x)}{q (x)}) d x = \int_{x} q (x) (\underset{t ⫅ d o m (f^{*})}{m a x} {\frac{p (x)}{q (x)} t - f^{*} (t)}) d x

这里可以假设存在某一个函数 $D$ ，其输入为 $x$ ，输出为 $t$ ，则有：

深度学习-- > Improved GAN-- > f-GAN

注意：不论函数 $D$ 为何函数，其符号都为大于等于。

那么我们可以选择到某个函数 $D$ ，使其上式右边取最大，则可得如下：

D_{f} (P | | Q) \approx \underset{D}{m a x} \int_{x} P (x) D (x) d x - \int_{x} q (x) f^{*} (D (x)) d x

$D_{f} (P | | Q)$ 表示 $f - d i v e r g e n c e$ ，上面我们已经说明了 $f - d i v e r g e n c e$ 可以用来衡量两种分布的拟合程度。

继续推导可得：

深度学习-- > Improved GAN-- > f-GAN

得出的形式是不是很像上一博文中介绍的 $V (G, D)$ 函数？

V = E_{x \sim P_{d a t a}} [l o g D (x)] + E_{x \sim P_{G}} [l o g (1 - D (x))]

继续可得：

深度学习-- > Improved GAN-- > f-GAN

所以我们可以这样理解更新 $G$ 的过程，实际就是不断的减小 $f - d i v e r g e n c e$ ，而这个时候 $f - d i v e r g e n c e$ 直接就是用来衡量两种分布的拟合程度。

实际train的不同

深度学习-- > Improved GAN-- > f-GAN

在 $o r i g i n a l G A N$ 中，在 $I n n e r l o o p$ 中通过多次循环来更新 $D$ ，然后再更新 $G$ ；而在上面介绍的 $f - G a n$ 中，只需要一步即可更新 $D 、 G$ 。

由此我们可以选中任意一种 $f - d i v e r a g e n c e$ 去 $m i n i z e$ 。

深度学习-- > Improved GAN-- > f-GAN

original GAN 不足之处

简单回顾GAN网络原理

存在的问题

Unified Framework

f-divergence

Fenchel Conjugate

Connect to GAN

实际train的不同

相关推荐