Cross-relation Cross-bag Attention for Distantly-supervised Relation Extraction 论文笔记
原文: Cross-relation Cross-bag Attention for Distantly-supervised Relation Extraction
AAAI 2019的一片文章。这篇文章也是针对DS的噪声问题,旨在构造一个noise-robust的训练方法。
- cross-relation attention
句子级的attention策略,即构造bag representation时每个句子权重的计算方法。作者指出传统的attention方法忽视了relation之前的联系而去独立预测,比如两个实体间有"live_in"关系,那么"died_in"就几乎不可能成立。因此在计算sentence attention时不但要考虑target relation,还要计算与other relations的打分。本质上类似多标签学习,但并不是用一个bag feature来预测多个relation,而是为每个relation构造一个bag feature,由此得名“cross-relation”。
在计算attention时用了Bayes公式:
作者假设服从均匀分布,因此在计算概率时可省略。为了方便表示将上式写成
其中是bag中的句子数目,由第i个bag的第j个sentence()和第k个relation()的余弦相似度构造:
可以看到表示在给定relation 的情况下,bag中每个句子的重要程度,由此得出当前bag对relation 的bag feature:
下面这张图表示得更清晰一些。Similarity matrix即由计算得到,而Correlation matrix即为。先从每个句子出发计算它们与各个relation的相似度并归一化(得),再在relation角度归一化(得)描述句子的重要程度。图中和与有相似的similarity打分,但与的打分更高,归一化后更倾向于使用的feature来学习representation。
- cross-bag attention
得到所有包对每个relation的representation后,我们可以从relation的角度重新打包,即为每个relation构造一个bag,称为superbag。这样做的好处有两种,一是superbag的标签只有一个,更“干净”。二是若原始bag中全是noisy sentences,在构造superbag时即可通过低权重把它近似舍去,减轻完全noisy bag的影响。cross-bag attention即构造superbag时的attention计算方法。
计算相对简单,也是用余弦相似度计算similarity,再归一化打分即可:
最终损失函数:
在实验中有一个超参是superbag size,设置为3,表示在构造superbag时只考虑3个原始句子bag。感觉相当于取了前三名?后续找一找代码。
实验做得挺全的。