GAN(9)——sequence generation
seq2seq的模型训练
传统方法的问题——RL中不存在标准回答,用Reward标识每个样本的权重,迭代更新
两者其实不是矛盾的,maximum likelihold 作为判别器,RL本身作为生成器?
on policy就是训练学生 off policy就是训练老师
强化学习的一大难点就是:需要大量的对当前训练样本的reward的计算
比如定义,evalucation function代替reward——这个evalucation function就可以引入GAN的判别器概念
与原本强化学习的区别在于,reward的计算由判别器代替,也是可以训练的
用GAN做没有reward函数的情况下的强化学习的任务
RNN中的GAN架构
应用第二种,不做采样的过程,直接把网络输出的概率分布输给判别器
由于判别器很容易区分
应用wGAN给判别器绑上手脚,会有帮助
细致到每个step
回答用“I”开头应该没问题,概率不应该降低,除非采样够多