DRL for Dialogue Generation论文学习零散记录

Deep Reinforcement Learning for Dialogue Generation
这是一篇将策略梯度（policy gradient）引入Seq2Seq来进行多轮对话的文章。

使用策略梯度从三方面来reward: informativity,coherence, and ease of answering。

作者提到将SEQ2SEQ模型用于dialogue generation存在两个问题：其一，SEQ2SEQ模型使用的是最大释然估计（MLE）的目标函数，然而MLE会倾向选择高频的generic response比如“I don’t know”（dull utterances）,很难产生interesting,diverse和informative的feedback来保持对话的继续；另外，可能陷入infinite loop of repetitive responses, 比如“A： see you later. B: see you later”然后A再回复“see you later”。
DRL for Dialogue Generation论文学习零散记录
不过作者没有提出新的框架结构，而是以pre-trained的SEQ2SEQ模型为基本框架，以DRL的思路提出了一种启发式算法。
作者认为good conversation具有forward-looking, interactive, informative和coherence 的特征。

Reward

1.Ease of answering
$r_{1} = - \frac{1}{N_{S}} \sum_{s \in S} \frac{1}{N_{s}} l o g p_{s e q 2 s e q} (s | a)$
在当前的action下产生无聊回答的平均log概率作为一个reward

2.Information Flow
$r_{2} = - l o g c o s (h_{p i}, h_{p i + 1}) = - l o g \frac{h_{p i} \cdot h_{p i + 1}}{| | h_{p i} | | | | h_{p i + 1} | |}$

$h_{p i}, h_{p i + 1}$ 我的理解是Encoder的上一轮和这一轮的隐层的向量（如果有误，恳请指出），这个是计算上一轮的输出和当前轮次的输出求余弦相似，给出一个reward. 避免产生infinite loop of repetitive responses。
需要注意地就是cos取值范围是[-1,1]，log中定义就要保证 $c o s (h_{p i}, h_{p i + 1}) > 0$ ,事实上 $h_{p i}$ 必然满足 $0 \leq h_{p i} \leq 1$ 。理由就是， $h_{p i}$ 实际上是LSTM的隐状态向量。如下是LSTM的cell state计算公式
$c_{t} = f \cdot c_{t - 1} + i \cdot σ (W_{1} \cdot x_{t - 1} + W_{2} \cdot h_{t - 1} + b)$
其中的 $σ ()$ 就是sigmoid 函数，它的取值就是[0,1]。forget门和input门的取值也是[0,1]。因此向量 $h_{p i}, h_{p i + 1}$ 均是正的，其余弦值也就是正的了。
3.Semantic Coherence
$r_{3} = \frac{1}{N_{a}} l o g p_{s e q 2 s e q} (a | q_{i}, p_{i}) + \frac{1}{N_{q_{i}}} l o g p_{s e q 2 s e q}^{b a c k w a r d} (q_{i} | a)$

三个reward取的是加权平均
$r (a, [p_{i}, q_{i}]) = λ_{1} r_{1} + λ_{2} r_{2} + λ_{3} r_{3}$

训练

作者不是直接使用一般的pre-trained的SEQ2SEQ，因为一般的会产生dull&generic response， e.g. “i don’t know”。作者借用了自己以前论文用到的MMI公式代替MLE，假设pre-trained SEQ2SEQ产生了一个candidate list（比如 N-best list）记为 $A = {\hat{a} | \hat{a} p_{R L}}$ ，记mutual information score（MMI文章内容，可参考我的这篇博客）为 $m (\hat{a} |, [p_{i}, q_{i})$
作者用的是MLE和强化学习混合的训练方式。
对于长度为T的序列，前L个token使用MLE进行训练，后面T-L个token使用强化学习的方法。
使用退火算法，在训练过程中使得L逐步减小为0.
reward的expected为：
$J (θ) = E [m (\hat{a} |, [p_{i}, q_{i})]$
梯度
$▽ J (θ) = m (\hat{a} |, [p_{i}, q_{i}) ▽ l o g p_{R L} (\hat{a} |, [p_{i}, q_{i})$
按这公式训练所需的SEQ2SEQ模型

强化学习阶段
贴公式：
reward的expected为：
$J_{R L} (θ) = E_{p_{R L} (a_{1} ： T)} [\sum_{i = 1}^{i = T} R (a_{i}, [p_{i}, q_{i}])]$
梯度：
$▽ J_{R L} (θ) \approx ▽ \sum_{i = 1} l o g p (a_{i}, p_{i}, q_{i}) [\sum_{i = 1}^{i = T} R (a_{i}, [p_{i}, q_{i}])]$

文章中，实验测试阶段，作者使用beam search的技术（训练时好像不需要使用beam search？）就不展开了。

数据集为OpenSubtitle，实验部分本文不涉及。

本文完

DRL for Dialogue Generation论文学习零散记录

训练

相关推荐