论文笔记《Gated-Attention Readers for Text Comprehension》

来源1606.01549

这篇论文提出的模型叫做GA Reader,用的是GRU,GRU中的两个门及候选状态的推理公式如下:论文笔记《Gated-Attention Readers for Text Comprehension》


GA Reader的实现思路为:
1,对于query首先也是用双向GRU处理,然后分别获取最后的状态concate一起。
2,对于doc也是用双向GRU处理,但是是输出每个时刻的Hidden,最后concate在一起。
3,然后用一个K层网络来处理,网络第一层是1,2步处理的query_emb和doc_emb对位相乘,也就是element-wise运算,假设得到的是temp_doc,然后这个temp_doc会输出到第二层,第二层完成的运算仍然是temp_doc和query_emb的对位相乘。如此循环下去。也就是说,K层会接收从K-1层来的temp_doc,然后仍然和query_doc进行element-wise运算。
4,其实与doc进行element-wise的并不是最初输出的query_doc,而是经过了一些处理的,如下面截图中3.1.2中红圈圈出来的部分,先用query_emb和doc_emb进行乘积后,再用siftmax处理获得attention,然后把这个attention与query_doc成绩后得到的query_temp,最后在用这个query_temp与doc_emb进行element-wise运算
5,K层模型的最后一层,获取到query_emb和doc_emb的内积(inner product)的结果后,经过softmax处理后得到概率值,最后将相同的entity的概率值相加。这一步的处理和sum Reader类似
6,当K为1时,GA Reaser就和AS Reader一样了
论文笔记《Gated-Attention Readers for Text Comprehension》
流程及模型结构如下图:
论文笔记《Gated-Attention Readers for Text Comprehension》


总结:本文最大的贡献是提出了一个新的 attention 机制,以往的 attention 主要是对网络输出进行加权平均(权重是由文档和问题之间的 dot product 得到的),而本文中的 attention 是用文档和问题之间的 hadamard product 得到的的。

参考资料:http://blog.csdn.net/u014300008/article/details/52667959