《AE-OT: A NEW GENERATIVE MODEL BASED ON EXTENDED SEMI-DISCRETE OPTIMAL TRANSPORT》中文笔记

文章信息:

D. An, Y. Guo, N. Lei, Z. Luo, S.-T. Yau, and X. Gu, “AE-OT: A NEW GENERATIVE MODEL BASED ON EX- TENDED SEMI-DISCRETE OPTIMAL TRANSPORT,” 2020, p. 19.

发表于2020年ICLR(International Conference on Learning Representations)

《AE-OT: A NEW GENERATIVE MODEL BASED ON EXTENDED SEMI-DISCRETE OPTIMAL TRANSPORT》中文笔记

摘要:

背景:

生成模型引起了huge attention in recent years;

现存问题及原因:

绝大多数existing models都有mode collapse和mode mixture的问题;

本文工作:

1. 根据Figalli's regularity theory of optimal transportation对上述问题给出了理论解释:

  • 生成器计算白噪声分布p_z和数据分布p_data之间的transpotation maps, 这是离散的;
  • 但DNN只能表达continuous maps;
  • 这种冲突就导致了continuous maps。

2. 本文分开了manifold embedding和optimal transportation:

  • 第一部分使用autoencoder(AE)将图像映射到laten space;
  • 第二部分是用基于GPU的凸优化找到不连续的transportation maps;
  • 再结合扩展的optimal transportation(OT)映射和解码器,最终可以从白噪声生成新图像。

显然,这篇文章没有使用DNN的continuous maps而是用了离散的映射,因此避免了mode collapse和mode mixture.

 

 

看了摘要后产生的疑问:

作为一个菜鸡,看过摘要之后自然有了一大堆疑问

1. 啥是mode mixture?

mode collapse: 给定了一个z,当z发生变化的时候,对应的G(z)没有变化.例如训练集有很多种类别(如猫狗牛羊),但是我们只能生成狗(或猫或牛或羊),虽然生成的狗的图片质量特别好,但是!整个G就只能生成狗,根本没法生成猫牛羊,陷入一种训练结果不好的状态。这和我们对GAN的预期是相悖的。

mode mixture,之前没有听说过,甚至没能查到,待解决。顺便复习一下mode collapse,如上所示;

2. 啥是transpotation maps?

这篇文章有解释:http://www.360doc.com/content/17/0212/11/35919193_628410589.shtml#

3. 为啥生成器计算白噪声分布p_z和数据分布p_data之间的transpotation maps是离散的?

看论文

4. 为啥DNN只能表达continuous maps?

看论文

5. 为啥离散和连续之间的冲突就产生了mode collapse和mode mixture?

看论文

6. 啥是manifold embedding(流形嵌入?)?

李宏毅老师GAN中在讲JS散度的缺点时p_G和p_data分布难以重合的原因之一是p_G和p_data都是高维空间的低维manifold,莫非流形嵌入就是这个意思?具体还要明天看具体的论文。

《AE-OT: A NEW GENERATIVE MODEL BASED ON EXTENDED SEMI-DISCRETE OPTIMAL TRANSPORT》中文笔记

7. 啥是optimal transportation(优化传输?)?

与问题2相同,这篇文章有解释:http://www.360doc.com/content/17/0212/11/35919193_628410589.shtml#

8. 为啥要专门说分开了manifold embedding和optimal transportation?是因为之前的工作大多没有分开吗?

看论文

9. autoencoder(AE)是啥来着?

自动编码器是神经网络的一种,其基本思想就是直接使用一层或者多层的神经网络对输入数据进行映射,得到输出向量,作为从输入数据提取出的特征。传统的自动编码器一般用来数据降维或者特征学习,类似于PCA,但是自动编码器比PCA灵活的多,因为它既能表征线性变换又能表征非线性变换。自动编码器可以被看做是前馈网络的一个特例。基本的自编码器模型是一个简单的三层神经网络结构:一个输入层、一个隐藏层和一个输出层。其中输出层和输入层具有相同的维数。

自编码器,它的输入输出是一致的,目标是使用稀疏的高阶特征重新组合来重构自己。自动编码器是一种数据压缩算法,其中数据的压缩和解压缩函数是数据相关的、有损的、从样本中自动学习。

DeblurGAN等很多图像生成网络都是这样的,连这个都能忘...

10. 如何用凸优化找到不连续的transportation maps?

看论文

11. 结合扩展的optimal transportation(OT)映射和解码器具体是怎么做的?

看论文

 

写到这里突然发现论文作者里竟然有丘成桐大神,膜膜膜!

明天继续看这篇论文并解决上面的问题