两者其实不是矛盾的，maximum likelihold 作为判别器，RL本身作为生成器？

GAN(9)——sequence generation

on policy就是训练学生 off policy就是训练老师

GAN(9)——sequence generation

强化学习的一大难点就是：需要大量的对当前训练样本的reward的计算

比如定义，evalucation function代替reward——这个evalucation function就可以引入GAN的判别器概念

GAN(9)——sequence generation

与原本强化学习的区别在于，reward的计算由判别器代替，也是可以训练的

用GAN做没有reward函数的情况下的强化学习的任务

GAN(9)——sequence generation

RNN中的GAN架构

GAN(9)——sequence generation

应用第二种，不做采样的过程，直接把网络输出的概率分布输给判别器

GAN(9)——sequence generation

由于判别器很容易区分

应用wGAN给判别器绑上手脚，会有帮助

GAN(9)——sequence generation

细致到每个step

回答用“I”开头应该没问题，概率不应该降低，除非采样够多

GAN(9)——sequence generation

GAN(9)——sequence generation