1. Abstract

作者首先大致介绍了自己的工作：将文档表示成为词共现网络并且提出了一种新的消息传播机制，提出模型MPAD及其相应变体。

2. Introduction

此部分作者简介了前人对于图上的消息传播机制(message passing over graphs)的工作，接着引出了自己的工作，作者提出的模型学习到的表示与SOTA模型有竞争力。

3. Message Passing Neural Networks

作者总结了当前GNNS的消息传播机制的通用框架MP(aggregate – combine – readout)。
Aggregate：
论文阅读总结(Message Passing Attention Networks for Documents Understanding)
对于节点v的t+1时间步的消息m，是由其t时间步的邻居节点的特征向量聚合而来。

Combine
经过aggregate操作后，节点v在t+1时间步的特征向量更新为：由t+1时间的消息向量和其自身在t时间的特征向量结合得到。

Readout
论文阅读总结(Message Passing Attention Networks for Documents Understanding) 整个graph的特征表示通过readout函数将其各节点在t轮迭代后的特征表示聚合得到。

4. Message Passing Attention Network for Document Understanding(MPAD)

在这部分作者提出了他们的用于document understanding的模型结构。

4.1 Word co-occurrence networks

首先是建图：作者对于每一个document，将文档中的每一个词视为一个节点建立一个词共现网络(用大小为2的滑动窗口选取共现词，前后相邻的词之间连边，注意此图是有向图，边的方向反映了词的顺序，这在一些GNNs里面是被忽略的)，边权是词的共现次数。
同时，作者加入了master node来表示文档，与其他所有节点连接权重为1的双向边。

4.2 Message passing mechanism

此部分作者提出了他们的MP框架(Aggregate && Combine && Readout)
Aggregate:
论文阅读总结(Message Passing Attention Networks for Documents Understanding) 其中：m是t+1时间的消息，MLP为多层感知机，D为对角入度矩阵，A为邻接矩阵(由于是有向图，A不对称，并且不考虑被更新节点自身的特征，A的对角为0)，H为n*d为的矩阵表示n个节点的d维特征的矩阵。
之后做了归一化处理，使 $D^{-1} A$ 的每一行和为1。

Combine:
论文阅读总结(Message Passing Attention Networks for Documents Understanding) 作者使用GRU-based模型来作为MP的combine函数，即将t时刻的特征表示和t+1时刻的消息输入到GRU中得到t+1时刻的特征向量。
公式表示中R为重置门，Z为更新门，W和U为可训练参数矩阵。

Readout
经过上面的aggregate和combine后，作者通过attention作为readout函数得到整个graph的特征表示。
论文阅读总结(Message Passing Attention Networks for Documents Understanding) 其中H^为除去master节点的其余节点特征矩阵，作者跳过了master节点的readout，因为其认为master节点包含了高层次的文档表示。
Multi-readout

同时，作者认为前人只在最后一层使用readout会损失掉传播过程中图的大量特征，因此作者在t次迭代的每一次都做了一次readout(Multi-readout)，最后拼接成为graph的特征。

4.4 variants

此部分作者提出了MPAD的三种变体，这些变体都先对每个句子以词共现建图，在将句子作为节点为文档建图。
包括：
MPAD-sentence-att：
通过自注意力机制来得到句子embedding。
MPAD-clique：
构建句子节点之间两两相连的完全图。
MPAD-path:
更改MPAD-clique为建立只连接前后相邻句的有向图。
论文阅读总结(Message Passing Attention Networks for Documents Understanding)

5. Experiments

作者用MPAD及其变体在10个文本分类数据集上和其他baseline模型做了对比实验：
论文阅读总结(Message Passing Attention Networks for Documents Understanding)
可以看出MPAD及其变体在大多数data上取得了SOTA的效果。
同时，作者对于MPAD的MP迭代次数和建图要素进行了实验：

论文阅读总结(Message Passing Attention Networks for Documents Understanding)

文章目录