2019_NAACL_A Capsule Network-based Embedding Model for Knowledge Graph Completion and Search Persona

代码地址:https://github.com/daiquocnguyen/CapsE

摘要

本文提出一种嵌入模型,名为CapsE,用胶囊网络建模三元组关系。
用一个三列的矩阵表示每个三元组,每列表示三元组(subject, relation, object)中的一个元素。然后将这个三列的矩阵喂给卷积层,用不同的卷积核生成不同的feature map,输入胶囊网络进行打分操作。有效的三元组分数很高,无效的三元组分数很低。

动机

1.大多数KG embedding模型都是为给定三元组的相同维度上的条目建模而构造的,中每个维度几乎都捕获了实体的一些特定于关系的属性。然而,现有的模型中没有一个具有用于在相同维度上对三元组中的条目进行建模的“深度”结构。
To the best of our knowledge, however, none of the existing models has a “deep” architecture for modeling the entries in a triple at the same dimension.

CapsE模型

符号描述

vs,vr,vov_s,v_r,v_o分别为(subject, relation, object)的k维embedding。
在CapsE中,将每个embedding三元组[vs,vr,vo][v_s,v_r,v_o]作为一个矩阵A=[vs,vr,vo]Rk×3\mathbf{A}=[v_s,v_r,v_o] \in \mathbb{R}^{k\times3}
Ai,:R1×3\mathbf{A}_{i,:}\in\mathbb{R}^{1\times3}表示矩阵AA的第 ii 行;
卷积层使用wR1×3w\in\mathbb{R}^{1\times3}的卷积核,使用该卷积核重复对AA的每一行做卷积操作,生成feature map q=[q1,q2,...,qk]Rk\mathbf{q}=[q_1,q_2,...,q_k]\in\mathbb{R}^k,其中,qi=g(wAi,:+b)q_i=g(w\cdot\mathbf{A}_{i,:}+b),该式中的\cdot表示点乘,bRb\in\mathbb{R}为偏置项,gg为非线性函数如ReLU,因此生成的qiRkq_i\in\mathbb{R}^k
本文中使用的卷积核集合表示为Ω\Omega,总数表示为N=ΩN=|\Omega|,因此卷积层会生成NNkk维的feature map,每一个特征映射可以捕获相同维度内的某个条目的某种特性。

模型架构

2019_NAACL_A Capsule Network-based Embedding Model for Knowledge Graph Completion and Search Persona

卷积层:

输入:矩阵A=[vs,vr,vo]Rk×3A=[v_s, v_r, v_o]\in\mathbb{R}^{k\times3},此例中k=4k=4
卷积核NN个卷积核wR1×3w\in\mathbb{R}^{1\times3},此例中N=5N=5
**函数:ReLU,有qi=g(wAi,:+b)q_i=g(w\cdot\mathbf{A}_{i,:}+b)
输出:一个feature map表示为 q=[q1,q2,...,qk]R1×k\mathbf{q}=[q_1,q_2,...,q_k]\in\mathbb{R}^{1\times k},此例中k=4k=4,共4维,共5个fearture map。

第一层胶囊层:

k=4k=4个胶囊组成
输入:5个fearture map,一个feature map表示为 q=[q1,q2,...,qk]Rk\mathbf{q}=[q_1,q_2,...,q_k]\in\mathbb{R}^{k}
输出u=[u1,u2,...,uk]\mathbf{u}=[u1,u2,...,u_k],其中,uiRN×1\mathbf{u}_i\in\mathbb{R}^{N\times1}

Routing process:

输入u=[u1,u2,...,uk]\mathbf{u}=[u1,u2,...,u_k]
输出u^i=Wiui\hat{\mathbf{u}}_i=\mathbf{W}_i\mathbf{u}_iWiRd×N\mathbf{W}_i\in\mathbb{R}^{d\times N}uiRN×1\mathbf{u}_i\in\mathbb{R}^{N\times1}u^iRd×1\hat{\mathbf{u}}_i\in\mathbb{R}^{d\times1};
s=iciu^i\mathbf{s}=\sum_ic_i\hat{\mathbf{u}}_isRd×1\mathbf{s}\in\mathbb{R}^{d\times1};
2019_NAACL_A Capsule Network-based Embedding Model for Knowledge Graph Completion and Search Persona

第二层胶囊层:

输入s=iciu^i\mathbf{s}=\sum_ic_i\hat{\mathbf{u}}_isRd×1\mathbf{s}\in\mathbb{R}^{d\times1};
输出e=squash(s)\mathbf{e}=squash(\mathbf{s})squash(s)=s21+s2sssquash(\mathbf{s})=\frac{||\mathbf{s}||^2}{1+||\mathbf{s}||^2}\frac{\mathbf{s}}{||\mathbf{s}||},耦合系数 cic_i 由路由过程决定;

打分函数:输出向量 e\mathbf{e} 的长度作为输入三元组的分数。打分函数如下:
f(s,r,o)=capsnet(g([vs,vr,vo]Ω))f(s,r,o)=||capsnet(g([v_s,v_r,v_o]*\Omega))||

损失函数:对数损失函数,在KG embedding中很常见。
2019_NAACL_A Capsule Network-based Embedding Model for Knowledge Graph Completion and Search Persona