Information Aggregation via Dynamic Routing for Sequence Encoding

对文本序列进行编码获得向量有了很多的工作，而对于如何把前面网络（RNN/CNN的输出）获得的向量进行处理获得特定长度的向量的工作比较少。通常使用简单的max/average pooling，是自下而上的，并且消极的信息聚集，缺少特定任务信息的引导。本文中，提出了一个聚集机制，即动态路由机制来获得固定长度的编码。动态路由机制动态决定怎样和如何进行每个词的信息传递。根据capsule网络的工作，设计了两层动态路由机制聚集RNN/CNN编码层的输出，并传递到最后一层。与其他聚集方法相比，动态路由可以根据最后编码的向量重新改进信息。

https://github.com/FudanNLP/Capsule4TextClassification

1 Introduction

学习文本序列的分布表示，比如句子或是文档，对于自然语言处理的应用特别重要，主要的挑战就是如何把不同长度的文本序列编码成特定长度的向量，而且完全捕获文本的语义信息。

一些有效的文本编码方法通常包括三个重要步骤：

文本序列的每个用embedding表示
词的embedding作为输入，并计算具有上下文语义的表示，可以使用RNN，CNN。
把句子的意思概括成一个固定大小的向量，可以用聚合操作。

这些模型采用监督或无监督的方法训练。

现在，主要专注两步，聚合操作不是特别强调。一些简单的聚合操作，比如max（average），用来把rnn的隐藏状态或是卷积获得的向量（之间计算获得）进行相加，获得一个向量，这种聚合信息的方式是从下向上而且消极的方法，并且缺少特定任务信息的引导，目前，一些工作使用self-attention机制对RNN或CNN进行聚合，而不是pooling。假设是词或句子的地位是不平等，一个或多个任务的上下文语义向量给每个词和不同任务的编码赋予不同的权重。上下文语义向量是训练过程获得，有注意力的聚合可以选择特定任务的信息，但是，学习得到上下文语义向量的特定长度的，

文本中，把聚合操作作为一个路由问题，即如何把源节点的信息传递到目标节点。在我们的实验中，源节点是RNN或CNN的输出，目标节点是特定长度的编码向量，表示文本序列的信息。

从这点上看，pooling和有注意力的聚合操作室特定的路由策略，不需要考虑最后编码向量的状态，比如，最后的编码向量可以接收不同词的冗余概念，固定路由策略无法避免这个问题，因此，我们希望根据最后的编码来聚合信息。

最近很好的工作，capsule网络，动态路由策略提出来了，并且比max-pooling路由更有效，受到他们的启发，提出了使用动态路由机制进行文本序列编码，而且提出了两种不同的动态路由策略。即