Learning to Select Knowledge for Response Generation in Dialog Systems

1 出发点

传统的Seq2Seq模型趋向产生一般的且信息含量较少的回答。
现有的具有外部知识的模型中，很少有人证明他们的模型有能力将适当的知识纳入生成的回答中。

2 论文贡献

在训练阶段，利用后验知识来实现有效的知识选择和整合，并且指导先验知识分布的训练。在测试阶段利用学习好的先验知识去选择合适的知识并产生具有更多信息的回答。
对比其他的模型效果很好（废话）

3 模型结构

图1为网络的整体结构：
论文笔记：基于外部知识的会话模型Learning to Select Knowledge for Response Generation in Dialog Systems

图1：主要包含Utterance Encoder, Knowledge Encoder, Knowledge Manager, Decoder

3.1 Encoder

Utterance Encoder和Knowledge Encoder都由双向GRU组成，但是两个双向GRU参数并不是共享的。

3.1.1 Utterance Encoder

输入：对话历史X
输出：x，是双向GRU产生的两个方向的最后一个单词的隐藏状态的拼接

3.1.2 Knowledge Encoder

输入1：外部知识{K₁…K_N}
输出2：{k₁…k_N}, 是双向GRU产生的两个方向的最后一个单词的隐藏状态的拼接

        输入2：目标话语Y
        输出2：y，是双向GRU产生的两个方向的最后一个单词的隐藏状态的拼接
        (note:训练时有Y，测试时没有)

3.2 Knowledge Manager

Knowledge Manager的目的是选出合适的K_i，图2为Knowledge Manager的详细结构：论文笔记：基于外部知识的会话模型Learning to Select Knowledge for Response Generation in Dialog Systems

图2：Knowledge Manager

输入：上一步得到的x, {k₁…k_N}, y
操作：1. 通过后验知识概率计算选取每个k_i 的概率，如公式1：论文笔记：基于外部知识的会话模型Learning to Select Knowledge for Response Generation in Dialog Systems

公式1

MLP代表全连接层，点积的作用是计算k_i 与 [x;y] 之间的关系。因为该条件概率是以 x, y 为条件的，所以视为后验知识概率。
2. 通过先验知识概率计算选取每个k_i 的概率，如公式2：论文笔记：基于外部知识的会话模型Learning to Select Knowledge for Response Generation in Dialog Systems

公式2

在训练阶段使用公式1去选取k_i（训练阶段也会计算公式2但是不作为结果输出,仅作为KL_loss的输入），在测试阶段使用公式2选取k_i（因为测试的时候没有Y）。因此就需要公式1与公式2的能力相同，所以在训练阶段添加一个KL_loss使得两个条件概率的输出相似，如公式3：论文笔记：基于外部知识的会话模型Learning to Select Knowledge for Response Generation in Dialog Systems

公式3

输出：选取的k_i

3.3 Decoder

        输入：s_t-1 :decoder的上一个隐藏状态，y_t-1 :decoder的上一个输出，c_t :由x得到的基于注意力机制的上下文向量
        操作，作者提出了两种方式分别为：
                1. Standard GRU with Concatenated Inputs，如公式4：论文笔记：基于外部知识的会话模型Learning to Select Knowledge for Response Generation in Dialog Systems