实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment

  • 摘要

实体对齐通常会遇到结构异质性和种子对齐有限的问题。本文提出了一种新的多通道图神经网络模型(MuGNN),通过多通道对两个图神经网络进行鲁棒编码来学习面向对齐的知识图谱嵌入。每个通道分别通过针对KG完成的自注意力和修剪排他实体的跨知识图谱关注的不同关系加权方案对KG进行编码,并通过池化技术将两者进一步组合。此外,还对规则知识进行了推断和传递,以一致地完成两个KG。MuGNN预计将调和KG间的结构差异,从而更好地利用种子对齐。

  • 介绍

现有问题:

实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment

结构异质性 不同的KG通常差别很大,可能会误导种子的表示学习和对齐信息。以图1的实体Jilin City为例,KG1和KG2分别展示了来自英文和中文*的子图。由于这是个中国城市,KG2有比KG1更多的信息(用红色虚线和椭圆表示),例如Dialect和Nearby的关系,还有通过关系Mayor连接的实体Liu Fei。显然,KG1中的省Jilin和KG2中的Jilin City不是正确的对齐,但在向量空间中却更可能接近,因为它们有更相似的结构(例如,Northeastern Mandarin和Changchun)。更糟糕的是,这种不正确的对齐方式将进一步蔓延到整个图形中。

有限的种子集 最近基于一般嵌入方法的努力很大程度上依赖于现有的对齐作为训练数据,而种子对数量对于高质量的实体嵌入通常是不够的。

  为解决这些问题,建议联合进行知识图谱推理和对齐,来协调不同知识图谱间的结构差异,并利用基于图的模型更好地利用种子对齐信息。结构协调的基本思想是补全缺失的关系,剔除唯一的实体。

  本文提出一种新模型MuGNN模型,它可以编码不同的KG来学习面向对齐的嵌入。对于每一个KG,MuGNN针对KG补全和剪枝都使用不同的通道,从而协调两种结构上的差异:关系缺失和唯一实体。不同的通道通过池化技术结合,通过从不同角度协调结构,增强了实体嵌入,使种子对齐的利用更加高效。在KG之间,每个通道通过共享参数传递结构信息。

  具体来说,对于KG补全,首先对每个KG使用AMIE+来诱导规则,然后将规则在KG之间传递以达到一致的补全。根据图注意力网络(GAT),利用KG自注意力对GNN通道进行关系加权。对于KG修剪,设计出跨KG注意力,通过对对应关系分配低权值来过滤唯一实体。主要贡献总结如下: 

  • 提出一种新的多通道GNN模型MuGNN,该模型通过从补全和剪枝的不同角度对图进行编码来学习面向对齐的嵌入,从而对于结构差异具有鲁棒性。
  • 提议联合进行KG推理和对齐,这样通过规则推理和转移的补全,明确协调了KG的异质性。
  • 对于实体对齐在五个公开可用数据集上进行了广泛的实验,并且达到了在[email protected]上平均5%的显著提升。进一步的切除研究证明了关键部分的有效性。
  • 框架

MuGNN的目标是学习用于实体对齐的面向对齐的KG嵌入。它引入KG推理和传递来补全KG,并利用KG自我注意和跨KG注意两种关系加权方案对KGs进行鲁棒地编码。

实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment

如图2所示,的框架主要有两个步骤:

知识图谱补全 目的是通过补全缺失的关系来协调结构差异。它不仅使用了一个流行的规则挖掘系统AMIE+来归纳规则,还可以根据种子对齐关系将它们相互转换。规则的传递是基于不论什么语言或领域,知识可以被推广到不同KG的假设。

多通道图神经网络 是通过不同通道对每个KG进行编码。多通道从补全和剪枝两个不同方面提升了实体嵌入,使得实体和它们的对应有了相似的结构。MuGNN包含三个主要部分:(1)关系加权,根据KG自注意力和跨KG注意力两种方案,为每个KG生成权重矩阵。每种类型注意力都是指一个GNN通道,在KG之间共享参数,进行结构性知识转移;(2)GNN编码器通过用其邻居改进实体嵌入来建模整个图的特征,因此,种子对齐信息应传播到整个图上;通过池化技术将GNN编码器在不同通道中的输出合并为(3)对齐模型的输入,它通过将种子的对齐实体(和关系)推到一起将两个KG嵌入到一个统一向量空间中。

  • 知识图谱补全

在本节中将介绍如何利用规则知识显式地补全KG,首先从每个KG中推导出规则,然后根据知识不变假设在KG之间传递这些规则,最后在每个KG中建立规则以一致地补全KG。

1.规则推理和传递  

本文并不关注规则知识的获取,因此直接使用AMIE+,一个成熟的规则挖掘系统,来高效地从大规模KG中发现Horn规则,例如实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment

  形式上,给定两个知识图谱实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment,首先分别挖掘规则,并获得两组规则知识实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment。这些规则知识是有很大不同的,因为KG是为满足不同应用或语言的需求而构造的。虽然它们可以单独补全各自的KG,但通过知识不变量假设知识在任何语言或领域都具有普遍性,进一步将两组规则相互转换。

  给定对齐关系实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment和一条规则实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment,将规则实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment中涉及到的所有关系用它在实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment的对应部分替代,若存在实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment。将获得这样一条规则实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment并将其加入实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment。在实验中可以找到传递规则的实例。注意,如果找不到对齐的关系即实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment,则可能没有转移的规则。

2.规则落地 

规则落地是找出符合规则定义的前提-结论关系的合适的三元组。为了补全,现在将每个规则集落地在对应的KG上,这不仅通过更密集的KG加速了对齐模型传播的效率,还增加了额外的约束,有助于高质量的实体嵌入学习。

  以知识图谱G为例,规定规则实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment,集合它的这样的落地:前提三元组在KG中,但结论三元组不在KG中:实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment。因此,将所有结论三元组添加到知识图谱实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment。类似地,将知识图谱实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment补全为实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment

  以图1为例,从信息更丰富的KG2获取到规则实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment,然后基于对齐关系provincedialect将其传递到KG1。因此在KG1中,可以找到适合的三元组实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment,故应用规则就可得到一个新的三元组diclect(Jilin City, Northeastern Mandarin)

  值得注意的是,推导出的规则并不是在所有情况下都成立,也许可以考虑每个基础的置信度值。把它留到以后的工作中去。

  • 多通道图神经网络

在本节中描述了MuGNN在面向对齐的嵌入学习中编码不同图谱所涉及的三个主要部分:关系加权、多通道GNN编码器和对齐模型。

1.关系加权

关系加权是为了生成基于图G的加权连接矩阵A,作为GNN编码器的输入结构特征。矩阵中的每个元素实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment表示实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment之间的加权关系。

  如同前文所说,结构差异有两种:由于KG的不完整性而造成的关系缺失,以及由于应用或语言的不同构造要求而产生的唯一实体。对于每个KG使用两个GNN编码器的通道,来分别调整两种差异。也就是说,对于每个通道生成两个邻接矩阵:基于知识图谱自注意力的实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment和基于跨知识图谱注意力的实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment。接下来,将描述如何计算实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment中的每个元素实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment

知识图谱自注意力 KG自注意力是为了更好地利用基于KG结构本身的种子对齐。该部分根据当前实体选择提供有用信息的邻居,并为它们分配高权重。根据GAT,定义实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment中表示实体实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment连通性的归一化元素实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment如下:

实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment

其中实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment表示有自环的实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment的邻居,实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment是衡量实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment对于实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment重要性的注意力系数,并使用一个注意力函数attn计算如下:

实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment

其中||表示向量连接,Wp是可训练参数。

跨知识图谱注意力 跨知识图谱注意力目的是建模两个KG的公共子图作为结构特征,以达到一致性。若某实体对应的关系在另一个KG中没有对应部分,则它会通过为该实体对应的关系分配更低的权重来修剪掉该唯一实体。将实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment中的实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment定义如下:

实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment

其中实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment表示为真时为1,否则为0。实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment是关系种类之间的一个相似度测量,并被定义为一个内积实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment。因此,实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment目的是为了找到两个KG之间的最佳映射,如果对于唯一实体没有这样的关系类别,则为0。

2.多通道编码器

GNN是一种处理图结构数据的神经网络模型,其主要思想类似于传播模型:根据相邻节点增强节点(即实体)的特征。因此,可以堆叠多个L层的GNN来实现进一步的传播。它的一个变体是基于谱图卷积的,例如GCN。每个GNN编码器都将当前层节点表示的隐藏状态作为输入,并计算新的节点表示如下:

实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment

其中A是邻接矩阵,展示了节点之间的连接,H是当前节点表示,W是学习到的参数,σ是**函数,这里选择ReLU

  受多头注意力网络启发,使用上述两种策略计算连接矩阵作为不同的通道,从不同的方面传播信息并使用一个池化函数聚合它们。的多通道GNN编码器是通过叠加多个GNN编码器构建的,定义为:

实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment

其中c是通道数,实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment是第i个通道的连接矩阵,实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment是第l+1层第i个通道计算出的隐藏状态,可表示为:

实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment

其中实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment是第i层通道的权重参数。这里,根据上文的两个注意力机制,设置i=1,2.设置实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment为随机初始化的实体嵌入。实验中,选择平均池化技术作为池化函数。

  将这样的多通道GNN编码器编码每个KG,得到实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment来表示提高后的实体嵌入,其中为了结构知识转移,每个通道共享参数实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment

3.对齐模型

对齐模型是通过将实体(和关系)的种子对齐push到一起,将两个KG嵌入到一个统一的向量空间中。通过两个实体或两个关系之间的距离来判断它们是否等价。对齐模型的目标函数如下:

实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment

其中实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment。负例的选择是通过计算余弦相似性,在同一KG中选择与对应实体最接近的25个实体作为负例,每5次迭代会重新计算一次负例。

规则知识约束 由于通过添加新的三元组(即落地的规则)改变了KG结构,因此还引入了triplet loss,以使落地规则在统一向量空间中是合法的。

  以知识图谱G为例,根据Guo et al.(2016 Jointly embedding knowledge graphs and logical rules) ,定义损失函数如下:

实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment

其中g是规则落地实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity AlignmentT代表所有的规则落地和三元组。实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment是由使用最近的抽样替换一个涉及的实体得到的负样本集。实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment是三元组t的真值函数:

实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment

或对于落地实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment,递归计算如下:

实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment

其中d是嵌入尺寸。相似地,对于知识图谱G',获取损失实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment。因此,多通道GNN的整体损失函数如下:

实体对齐6.ACL2019:(MuGNN)Multi-Channel Graph Neural Network for Entity Alignment