[dialog system] 阅读笔记 - 2016--HRED
首选吐槽一下****, 博客title的长度竟然有限制,一篇论文题目都放不下。试了下简书, 完全无障碍。
Ref
- Building End-To-End Dialogue Systems Using Generative Hierarchical Neural Network Models,Iulian V. Serban, Alessandro Sordoni, Yoshua Bengio, Aaron Courville, Joelle Pineau,2016
Introduction
- open-domain, large corpus, generative model,non-goal-driven
- 采用层次end2end 架构(HRED),一层对token-level 建模,一层对sentence-level 建模。sentence-level 相当于考虑了会话历史信息,并作为context 应用到decode 端。
- improved by bootstrapping and pretrained word embeddings
- 三轮对话(three consecutive utterances)
- data set: 电影字幕(movie scripts)
problem
标准的seq2seq 模型在dialog system 中对上下文信息的依赖有限,本文提出一种能够对句子和上下文同时建模的分层网络,来实现多轮对话。
model
- 对conversation 进行分层, 每个 conversation 可以看作是utterance的序列,同样每个utterance 可以看作是token的序列。
- encoder RNN 将每个 utterance 编码为一个dense vector( utterance vector),其中utterance vector 为 encode RNN 的最后一个隐藏状态;
- context RNN 对已经得到的utterence vector 进行编码。这样在解码生成response 是就可以利用会话的历史信息;
- context RNN 的目的是希望speakers们基于相同的会话背景(如topics, concepts)进行会话,这样才能产生有意义的会话;
- bootstrapping 。首先在大语料上训练word embedding,然后在{Q,A}对大语料上预训练模型
comment
- 同样,这篇论文与[dialog system]阅读笔记 - 2016__A Persona-Based Neural Conversation Model一样,考虑的重点是将历史会话信息应用到解码中,仅使用了标准的decode RNN, 没有进一步加入atttention mechanism;可以效仿阅读笔记 - 2015__Neural Responding Machine for Short-Text Conversation 一文所述方法,将context representation 与各个注解
hj 拼接,也就成了加入注意力机制的HRED。 - HRED相对于标准的seq2seq模型的提高并不明显,反而bootstrapping 的作用更加明显。