RL for Sentence Generation

本篇博文主要总结下台大教授李宏毅深度学习课程中关于 $s e q G A N$ 的相关内容，并且添加了自己的一些思考。

Policy Gradient

众所周知，强化学习的目标就是 $M a x i m i z i n g E x p e c t e d R e w a r d$ ，在 $s e q G A N$ 中，如下图：

上图中生成器是一个 $s e q 2 s e q$ 的模型，判别器就是所谓的 $H u m a m$ 。那么不同的 $e n c o d e r_i n p u t h$ 能生成不同的 $x$ ，我们把 $h, x$ 喂给判别器，让其进行评价评估，得到其 $r e w a r d$ 。

我们的目标就是希望最大化的这个 $M a x i m i z i n g E x p e c t e d R e w a r d$
RL for Sentence Generation

上面公式中的 $\sum p (h)$ 可以理解为 $e n c o d e r_i n p u t$ 的分布， $p_{θ} (x | h)$ 表示在当前 $e n c o d e r_i n p u t$ 下生成的所有 $x$ 的分布，注意因为有随机性，相同的 $h$ 不一定能生成相同的 $x$ 。 $θ$ 是 $s e q 2 s e q$ 的模型参数。我们的就是不断的最大化上面的 $R_{θ}$ 来更新 $θ$ 然后更新生成器。

显然，我们可以将上式子理解成期望的形式：

RL for Sentence Generation

因为不可能穷举所有的训练数据，故只能采用 $s a m p l e$ 近似的方式

RL for Sentence Generation

由此产生了一个问题，我们需要更新生成器的参数 $θ$ ，如果采用 $s a m p l e$ 的方式，则无法找到参数，参数是隐藏其中的，影响生成的 $x$ 。

好，此时采用 $p o l i c y g r a d i e n t$ 的方法：
RL for Sentence Generation

然后我们用已经求得的 $R$ 对 $θ$ 的导数，利用 $g r a d i e n t_a s c e n d$ 来更新 $θ$ 。

RL for Sentence Generation

显然：

当 $R (h^{i}, x^{i})$ 为正时，通过更新 $θ$ ，更新后的 $p (x_{i} | h_{i})$ 会增大。
当 $R (h^{i}, x^{i})$ 为负时，通过更新 $θ$ ，更新后的 $p (x_{i} | h_{i})$ 会减小。

经典的是 $p o l i c y g r a d i e n t$ 与 $M L E$ 的比较：

RL for Sentence Generation

上面表格的总结非常精辟，强化学习的目标函数实际上就是MLE的每一项的前面加了个权重而已，这个权重就是 $r e w a r d$ ；并且在 $M L E$ 的目标函数中，其 $x$ 为 $t r u e t a r g e t$ ，而在 $R L$ 中， $x$ 为生成所生成的。（避免 $b i a s e x p o s u r e$ 问题）

在实际实现中，也很简单，在已知上面表格中的 $R L$ 目标函数，利用深度学习框架即可自动的求导使其最大化。也可以理解为只是在 $M L E$ 的每一项前添加一个 $r e w a r d$ 权重即可，至于 $r e w a r d$ 如何得到，之前的博文中已讲过。

RL for Sentence Generation

Policy Gradient

相关推荐