您的位置: 首页 > 文章 > [dialog system] 阅读笔记 - 2016--HRED

[dialog system] 阅读笔记 - 2016--HRED

分类: 文章 • 2024-10-16 23:45:46

首选吐槽一下****, 博客title的长度竟然有限制，一篇论文题目都放不下。试了下简书，完全无障碍。

Ref

Building End-To-End Dialogue Systems Using Generative Hierarchical Neural Network Models,Iulian V. Serban, Alessandro Sordoni, Yoshua Bengio, Aaron Courville, Joelle Pineau,2016

Introduction

open-domain, large corpus, generative model,non-goal-driven
采用层次end2end 架构(HRED)，一层对token-level 建模，一层对sentence-level 建模。sentence-level 相当于考虑了会话历史信息，并作为context 应用到decode 端。
improved by bootstrapping and pretrained word embeddings
三轮对话(three consecutive utterances)
data set: 电影字幕（movie scripts）

problem

标准的seq2seq 模型在dialog system 中对上下文信息的依赖有限，本文提出一种能够对句子和上下文同时建模的分层网络，来实现多轮对话。

model

[dialog system] 阅读笔记 - 2016--HRED

对conversation 进行分层，每个 conversation 可以看作是utterance的序列，同样每个utterance 可以看作是token的序列。
encoder RNN 将每个 utterance 编码为一个dense vector( utterance vector),其中utterance vector 为 encode RNN 的最后一个隐藏状态；
context RNN 对已经得到的utterence vector 进行编码。这样在解码生成response 是就可以利用会话的历史信息；
context RNN 的目的是希望speakers们基于相同的会话背景（如topics, concepts）进行会话，这样才能产生有意义的会话；
bootstrapping 。首先在大语料上训练word embedding，然后在{Q,A}对大语料上预训练模型

comment

同样，这篇论文与[dialog system]阅读笔记 - 2016__A Persona-Based Neural Conversation Model一样，考虑的重点是将历史会话信息应用到解码中，仅使用了标准的decode RNN, 没有进一步加入atttention mechanism；可以效仿阅读笔记 - 2015__Neural Responding Machine for Short-Text Conversation 一文所述方法，将context representation 与各个注解hj 拼接，也就成了加入注意力机制的HRED。
HRED相对于标准的seq2seq模型的提高并不明显，反而bootstrapping 的作用更加明显。