本节内容综述

本节课讲解 Conditional Generation 。本讲将以 Text-to-Image 为例。
传统的监督学习似乎可以解决 Text-to-Image 这个问题，但其不能生成没见过的 Text 下的图片。
讲解 cGAN 的结构。
详细讲了 Discriminator 的设计。
将生成过程拆成 2 阶的 Stack GAN 。
Image-to-image 技术，其中，因为输出图片很大，其 Discriminator 经过了特殊的设计 Patch GAN 。
此外，可以用 cGAN 做 Speech Enhancement （去噪音等功能）。
此外，也可以做图片生成 Video Generation 。

Conditional GAN
Discriminator
Stack GAN
Image-to-image

Patch GAN

Speech Enhancement
Video Generation

小细节

Conditional GAN

【李宏毅2020 ML/DL】P75 Generative Adversarial Network | Conditional GAN
如上，除了输入文字“train”外，还输入一个正态分布的向量。此外，我们的 Discriminator 不仅仅判断真假，而要产生一个 scalar ：x是否是真实的，且是否与文字相符。
【李宏毅2020 ML/DL】P75 Generative Adversarial Network | Conditional GAN

其演算法如上。

Discriminator

【李宏毅2020 ML/DL】P75 Generative Adversarial Network | Conditional GAN
如上，推荐使用下面的架构（性能不错）。下面的架构，将“是否为真”且“是否匹配”拆开，这样不会让神经网络“困惑”。

【李宏毅2020 ML/DL】P75 Generative Adversarial Network | Conditional GAN
去年同学的作业效果如上。

Stack GAN

【李宏毅2020 ML/DL】P75 Generative Adversarial Network | Conditional GAN
如上，两截的 Generator ，先产生小图，再产生大图。

Image-to-image

【李宏毅2020 ML/DL】P75 Generative Adversarial Network | Conditional GAN
收集一些数据对（抽象数据，真实图片）。如果用传统的监督学习，则生成图片较为模糊。因为训练时，仅仅是为了让各个像素最为接近。

如上，使用 GAN ，输入一个抽象图片+噪音；同时：