论文浅尝 | ​ADRL:一个基于注意力机制的知识图谱深度强化学习框架

论文笔记整理:谭亦鸣,东南大学博士。


论文浅尝 | ​ADRL:一个基于注意力机制的知识图谱深度强化学习框架

来源:Knowledge-Based Systems 197 (2020) 105910

链接:https://www.sciencedirect.com/science/article/abs/pii/S0957417419306839

概要与动机

知识图谱推理是图谱构建的关键技术之一,它在包括垂直搜索和智能问答等应用场景中有着重要作用。推理的目标是根据已知实体和关系推断所需的未知实体。现有的推理方法主要基于embedding实现(即对所有的实体和关系做整体embedding,然后利用向量相似度推断实体间的关系或者给定三元组是否为真)。但是在真实的应用场景中,我们需要一个清晰且可解释的实体作为输出。本文提出一种基于注意力机制的知识图谱深度强化学习框架ADRL,用于学习多跳关系路径,通过深度学习及强化学习结构化感知,从而提高传统方法效率,泛化能力及可解释性。

贡献

本文的主要贡献包括:

1.提出了一个面向知识图谱推理的基于深度学习的新框架,相较传统方法,该框架科研有效提升性能及可解释性

2.设计了一个关系模型,作为推理框架的通用插件,其中的self-attention能够循环推断实体之间的关系以引导一个model-free的策略,这一做法相对前人工作更有助于agent推断关系路径

3.利用actor-critic方法有效解决了奖励系数问题,其中奖励取决于价值函数,并将同策略一起被训练和优化

模型与算法

本文提出框架的整个过程如下图所示,其过程大体可以描述为:

1.首先将知识图谱的agent环境输入卷积神经网络(CNN);

2.利用深度CNN将其映射到低维向量,且可以在每个级别可以传递信息

3.接着使用LSTM(使用校正的线路单ReLU**函数),用于储存生成的历史轨迹,构成策略与价值函数

4.上述步骤的输出被输入进一个关系模型,模型中包含一个self-attention模块用于推断和分享实体向量及关系向量的权值

5.利用一个特征感知的最大池化层对关系模型的输出进行聚合,最后传递给一个MLP接着是ReLU**函数用于产生一个策略以及一个基准标量价值函数,可以被用作一个agent奖励

论文浅尝 | ​ADRL:一个基于注意力机制的知识图谱深度强化学习框架

在优化算法方面,作者考虑到基于梯度下降的方法效率较低,而蒙特卡洛抽样依赖于大量积极奖励(尤其是学习初始阶段),为了解决这些问题,作者选择Actor-Critic,一种结合策略梯度和顺序差异学习的强化学习方法。Actor-Critic算法可以执行单步更新参数,使用值函数作为基础函数来减少策略梯度的差异,而无需等待回合结束,并且在训练过程中可以同时学习策略和价值函数,算法流程如下图:

论文浅尝 | ​ADRL:一个基于注意力机制的知识图谱深度强化学习框架

实验与结果

实验数据:

本文实验所使用的数据是目前较为流行的KG推理数据集(WN18RR,FB15K-237,NELL-995),其统计信息如表1.

论文浅尝 | ​ADRL:一个基于注意力机制的知识图谱深度强化学习框架

表2是linkprediction实验结果,本文方法展现出了更好的性能,作者认为是共享的实体及关系权值带来了更佳的性能表现。

论文浅尝 | ​ADRL:一个基于注意力机制的知识图谱深度强化学习框架

表3是factprediction的结果,作者认为本文方法的优势在于“the reason is that our model is more complex than the previous model, introducing more state-of-the-art methods”

论文浅尝 | ​ADRL:一个基于注意力机制的知识图谱深度强化学习框架

 


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

论文浅尝 | ​ADRL:一个基于注意力机制的知识图谱深度强化学习框架

点击阅读原文,进入 OpenKG 博客。