【李宏毅2020 ML/DL】P83 Generative Adversarial Network | Evaluation

我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的、自己不知道的东西。

这是我的李宏毅老师 GAN 系列第10篇笔记,GAN 系列:

本节内容综述

  1. 本节是李老师讲的 GAN 的最后一节课。有没有什么客观的方法来衡量产生的 object 好不好。无法使用传统的 likelihood 查看好坏。
  2. 可以使用 Kernel Density Estimation 的方法。但是,用 likelihood 本来就正确,见 Likelihood v.s. Quality 。
  3. 可以参考分类问题,见 Objective Evaluation 。由此引出的指标叫做 Inception Score 。
  4. 此外,我们还需要讨论生成结果的多样性,见 Mode Dropping 。
  5. 简单讲一下 Mini-batch Discriminator 与 Optimal Transport GAN (OTGAN)。
  6. 最后,李老师对 GAN 下了一些结论(其实是完了一个说名字的小游戏,哈哈)。见 Concluding Remarks 。

小细节

Kernel Density Estimation

【李宏毅2020 ML/DL】P83 Generative Adversarial Network | Evaluation
如上,用 G 产生的数据,用几个高斯混合模型去接近。与真是数据分布进行对比。

Likelihood v.s. Quality

【李宏毅2020 ML/DL】P83 Generative Adversarial Network | Evaluation
如上,可能会有低的 likelihood ,但实际上其质量是很高的;而也有可能绝大部分图片是糊的,但是其带来的分数损失可能很小(如上,只有 -4.6)。

Objective Evaluation

【李宏毅2020 ML/DL】P83 Generative Adversarial Network | Evaluation
如上,使用分类器判断,这是不是某一个具体的事物;还可以输入一大把数据,我们期望得到的数据类别是服从平均分布的。

Inception Score

【李宏毅2020 ML/DL】P83 Generative Adversarial Network | Evaluation
如上,我们用如上公式来衡量我们之前讲到的两个指标。

We don’t want to memory GAN.

【李宏毅2020 ML/DL】P83 Generative Adversarial Network | Evaluation
如上,只算像素图片之间的相似度,其实是不够的。如上的每条线代表相似度。如果将原图片向左移动2格以上,其最像的图片就变成了绿色那张图片。

Mode Dropping

【李宏毅2020 ML/DL】P83 Generative Adversarial Network | Evaluation
此外,我们需要衡量产生的个体的“多样性”。如上,如果采样 400 张图片(在 DCGAN)中,会有 50% 的几率有相同的“人”。

Mini-batch Discriminator

【李宏毅2020 ML/DL】P83 Generative Adversarial Network | Evaluation
如上,让 D 看“一把图”,判断真假。
【李宏毅2020 ML/DL】P83 Generative Adversarial Network | Evaluation
如上,对于 Optimal Transport GAN 也是同理。

Concluding Remarks: from A to Z

A to Z 英文是“从头到尾”的意思,但是这里,其实只是比谁能说出来的 GAN 的名字多,哈哈。
【李宏毅2020 ML/DL】P83 Generative Adversarial Network | Evaluation
【李宏毅2020 ML/DL】P83 Generative Adversarial Network | Evaluation
如上,复习了我们讲过的 GAN 。

(老师之前提到不讲的 GAN 都想凑这个游戏哈哈哈哈。