论文阅读总结(Message Passing Attention Networks for Documents Understanding)

论文阅读总结(Message Passing Attention Networks for Documents Understanding)From AAAI2020


论文链接:Message Passing Attention Networks for Documents Understanding

1. Abstract

作者首先大致介绍了自己的工作:将文档表示成为词共现网络并且提出了一种新的消息传播机制,提出模型MPAD及其相应变体。

2. Introduction

此部分作者简介了前人对于图上的消息传播机制(message passing over graphs)的工作,接着引出了自己的工作,作者提出的模型学习到的表示与SOTA模型有竞争力。

3. Message Passing Neural Networks

作者总结了当前GNNS的消息传播机制的通用框架MP(aggregate – combine – readout)。
Aggregate:
论文阅读总结(Message Passing Attention Networks for Documents Understanding)
对于节点v的t+1时间步的消息m,是由其t时间步的邻居节点的特征向量聚合而来。


Combine
论文阅读总结(Message Passing Attention Networks for Documents Understanding)经过aggregate操作后,节点v在t+1时间步的特征向量更新为:由t+1时间的消息向量和其自身在t时间的特征向量结合得到。


Readout
论文阅读总结(Message Passing Attention Networks for Documents Understanding)整个graph的特征表示通过readout函数将其各节点在t轮迭代后的特征表示聚合得到。

4. Message Passing Attention Network for Document Understanding(MPAD)

在这部分作者提出了他们的用于document understanding的模型结构。

4.1 Word co-occurrence networks

首先是建图:作者对于每一个document,将文档中的每一个词视为一个节点建立一个词共现网络(用大小为2的滑动窗口选取共现词,前后相邻的词之间连边,注意此图是有向图,边的方向反映了词的顺序,这在一些GNNs里面是被忽略的),边权是词的共现次数。
同时,作者加入了master node来表示文档,与其他所有节点连接权重为1的双向边。

4.2 Message passing mechanism

此部分作者提出了他们的MP框架(Aggregate && Combine && Readout)
Aggregate:
论文阅读总结(Message Passing Attention Networks for Documents Understanding)其中:m是t+1时间的消息,MLP为多层感知机,D为对角入度矩阵,A为邻接矩阵(由于是有向图,A不对称,并且不考虑被更新节点自身的特征,A的对角为0),H为n*d为的矩阵表示n个节点的d维特征的矩阵。
之后做了归一化处理,使 D1AD^{-1} A的每一行和为1。

Combine:
论文阅读总结(Message Passing Attention Networks for Documents Understanding)作者使用GRU-based模型来作为MP的combine函数,即将t时刻的特征表示和t+1时刻的消息输入到GRU中得到t+1时刻的特征向量。
公式表示中R为重置门,Z为更新门,W和U为可训练参数矩阵。


Readout
经过上面的aggregate和combine后,作者通过attention作为readout函数得到整个graph的特征表示。
论文阅读总结(Message Passing Attention Networks for Documents Understanding)其中H^为除去master节点的其余节点特征矩阵,作者跳过了master节点的readout,因为其认为master节点包含了高层次的文档表示。
Multi-readout
论文阅读总结(Message Passing Attention Networks for Documents Understanding)

同时,作者认为前人只在最后一层使用readout会损失掉传播过程中图的大量特征,因此作者在t次迭代的每一次都做了一次readout(Multi-readout),最后拼接成为graph的特征。

4.4 variants

此部分作者提出了MPAD的三种变体,这些变体都先对每个句子以词共现建图,在将句子作为节点为文档建图。
包括:
MPAD-sentence-att:
通过自注意力机制来得到句子embedding。
MPAD-clique:
构建句子节点之间两两相连的完全图。
MPAD-path:
更改MPAD-clique为建立只连接前后相邻句的有向图。
论文阅读总结(Message Passing Attention Networks for Documents Understanding)

5. Experiments

作者用MPAD及其变体在10个文本分类数据集上和其他baseline模型做了对比实验:
论文阅读总结(Message Passing Attention Networks for Documents Understanding)
可以看出MPAD及其变体在大多数data上取得了SOTA的效果。
同时,作者对于MPAD的MP迭代次数和建图要素进行了实验:
论文阅读总结(Message Passing Attention Networks for Documents Understanding)