论文笔记《Gated-Attention Readers for Text Comprehension》

这篇论文提出的模型叫做GA Reader,用的是GRU,GRU中的两个门及候选状态的推理公式如下：

GA Reader的实现思路为：
1，对于query首先也是用双向GRU处理，然后分别获取最后的状态concate一起。
2，对于doc也是用双向GRU处理，但是是输出每个时刻的Hidden，最后concate在一起。
3，然后用一个K层网络来处理，网络第一层是1，2步处理的query_emb和doc_emb对位相乘，也就是element-wise运算，假设得到的是temp_doc,然后这个temp_doc会输出到第二层，第二层完成的运算仍然是temp_doc和query_emb的对位相乘。如此循环下去。也就是说，K层会接收从K-1层来的temp_doc，然后仍然和query_doc进行element-wise运算。
4，其实与doc进行element-wise的并不是最初输出的query_doc，而是经过了一些处理的，如下面截图中3.1.2中红圈圈出来的部分，先用query_emb和doc_emb进行乘积后，再用siftmax处理获得attention，然后把这个attention与query_doc成绩后得到的query_temp,最后在用这个query_temp与doc_emb进行element-wise运算
5，K层模型的最后一层，获取到query_emb和doc_emb的内积(inner product)的结果后，经过softmax处理后得到概率值，最后将相同的entity的概率值相加。这一步的处理和sum Reader类似
6,当K为1时，GA Reaser就和AS Reader一样了

流程及模型结构如下图：

总结：本文最大的贡献是提出了一个新的 attention 机制，以往的 attention 主要是对网络输出进行加权平均(权重是由文档和问题之间的 dot product 得到的)，而本文中的 attention 是用文档和问题之间的 hadamard product 得到的的。

参考资料:http://blog.csdn.net/u014300008/article/details/52667959

论文笔记《Gated-Attention Readers for Text Comprehension》

相关推荐