《A Joint Neural Model for Information Extraction with Global Features》论文笔记
2020 ACL会议《A Joint Neural Model for Information Extraction with Global Features》
该论文提出一个名为ONEIE的信息抽取框架,增加一个全局特征,在实例之间和子任务之间进行联合决策。
1. Introduction
大多数的信息抽取的联合学习模型使用task-specific分类对独立实体进行标记而不是使用实体之间的交互信息。论文提出名为ONEIE的端到端信息抽取框架,整个过程分为四个操作阶段:
- 对输入语句进行编码(Embedding);
- 识别句中的实体(Entity)和事件(Event)并用结点(Node)进行表示;
- 使用句内信息(Local classifier)计算所有结点及其连接(Link)的标签分数(Label Score);
- 解码(Decoding)时使用束搜索(Beam search)找到全局最优图。
在解码阶段加入全局特征(Global Feature)捕捉实例之间(cross-instance)和子任务之间(cross-subtask)的联系(Interaction)。同时ONEIE框架没有使用任何特定语言的语法特征(Language-specific feature),所以很容易适应新语言。
2. Task
-
Entity Extraction
根据提前定义(Pre-defined)的实体分类识别语句中提及的实体。
-
Relation Extraction
对给定的实体对分配关系类型。
-
Event Extraction
涉及识别非结构语句中的事件触发语(Event trigger: the word or phrases that most clearly express event occurrences)及这些词语和短语的论据(Arguments: the words and phrases for participants in those events),并将这些短语根据类型和语法规则进行分类。
一个Argument可以是一个实体、时间表达式或数值等。
对信息抽取的任务作如下规定:
对于给定的句子,目的是提取一个信息表示图:
G
=
(
V
,
E
)
G=(V,E)
G=(V,E),其中
V
V
V和
E
E
E分别表示结点集和边集。
对于任意结点 v i = < a i , b i , l i > ∈ V v_i=<a_i, b_i, l_i>\in V vi=<ai,bi,li>∈V表示一个实体(Entity)或事件触发器(Event trigger),其中 a a a和 b b b分别表示结点起始和结束词语的索引(indices), l l l表示结点类型标签(Node type label)。
对于任意边 e i j = < i , j , l i j > ∈ E e_{ij}=<i,j,l_{ij}>\in E eij=<i,j,lij>∈E表示两个结点之间的关系,其中 i i i和 j j j分别表示两个相关结点的索引, l i j l_{ij} lij表示关系类型。
3. Approach
ONEIE框架对给定的语句进行信息网络提取,分为以下四步:encoding,identification,classification和decoding。我们使用预训练的BERT模型进行编码,然后对语句中的实体和事件触发器进行识别。之后计算所有的结点和相关的边的类型标签分数(Type label scores)。在解码阶段,我们使用束搜索(Beam Search)探索输入语句可能的信息网络。
3.1 Encoding
输入一句包含 L L L个词的语句,使用预训练的BERT模型将每个词表示为 x i x_i xi。实验发现使用最后三层BERT在大多数的子任务上表现较好。
3.2 Identification
这一阶段将识别句中的实体提及和事件触发器,并表示为信息网络中的结点。我们使用前馈神经网络FFN计算每个词的分数向量 y ^ i = F F N ( x i ) \hat{y}_i=FFN(x_i) y^i=FFN(xi), y ^ i \hat{y}_i y^i表示一个标签在目标标签集(Target tag set)中的分数。
之后使用CRF层捕捉标签之间的联系,计算tag path
z
^
=
{
z
1
^
,
.
.
.
,
z
^
L
}
\hat{z}=\{\hat{z_1},...,\hat{z}_L\}
z^={z1^,...,z^L}的分数:
s
(
X
,
z
^
)
=
∑
i
=
1
L
y
^
i
,
z
i
^
+
∑
i
=
1
L
+
1
A
z
^
i
−
1
,
z
^
i
s(X,\hat{z})=\sum_{i=1}^{L}{\hat{y}_{i,\hat{z_i}}}+\sum_{i=1}^{L+1}{A_{\hat{z}_{i-1},\hat{z}_{i}}}
s(X,z^)=i=1∑Ly^i,zi^+i=1∑L+1Az^i−1,z^i
其中 X = { x 1 , . . . , x L } X=\{x_1,...,x_L\} X={x1,...,xL}是输入语句中每个词的向量表示, y ^ i , z i ^ \hat{y}_{i,\hat{z_i}} y^i,zi^是分数向量 y ^ i \hat{y}_i y^i在第 z ^ i \hat{z}_i z^i条路径的组合, A z ^ i − 1 , z ^ i A_{\hat{z}_{i-1},\hat{z}_{i}} Az^i−1,z^i是矩阵A中 z ^ i − 1 \hat{z}_{i-1} z^i−1到 z ^ i \hat{z}_i z^i的转移分数。同时,我们在A中添加两个特殊的标签 < s t a r t > , < e n d > <start>,<end> <start>,<end>分别作为 z ^ 0 \hat{z}_0 z^0和 z ^ L + 1 \hat{z}_{L+1} z^L+1来表示词语序列的开始和结束。
训练阶段时,我们最大化标准标签路径的对数似然估计:
log
p
(
z
∣
X
)
=
s
(
X
,
z
)
−
l
o
g
∑
z
^
∈
Z
e
s
(
X
.
z
^
)
\log{p(z|X)}=s(X,z)-log{\sum_{\hat{z}\in Z}{e^{s(X.\hat{z})}}}
logp(z∣X)=s(X,z)−logz^∈Z∑es(X.z^)
其中
Z
Z
Z是输入语句中所有可能标签路径的集合。
所以我们定义实体识别阶段的损失函数为:
L
I
=
−
log
p
(
z
∣
X
)
L^I=-\log{p(z|X)}
LI=−logp(z∣X)
3.3 Classification
将每个识别出的结点表示为
v
i
v_i
vi,之后使用分离的针对特定任务的前馈神经网络来计算每个结点的标签分数:
y
^
i
t
=
F
F
N
t
(
v
i
)
\hat{y}_{i}^{t}=FFN^t(v_i)
y^it=FFNt(vi)
其中
t
t
t表示一个特定的任务。
为了获得
i
−
t
h
i-th
i−th和
j
−
t
h
j-th
j−th结点之间边的标签分数,我们连接它们的跨度表示(Span Representation),将向量表示为:
y
^
k
t
=
F
F
N
t
(
v
i
,
v
j
)
\hat{y}_{k}^{t}=FFN^t(v_i,v_j)
y^kt=FFNt(vi,vj)
对于每个任务,训练目标是最小化以下交叉熵损失:
L
t
=
−
1
N
t
∑
i
=
1
N
t
y
i
t
log
y
^
i
t
L^{t}=-\frac{1}{N^t}\sum_{i=1}^{N^t}{y_i^{t}\log{\hat{y}^{t}_{i}}}
Lt=−Nt1i=1∑Ntyitlogy^it
其中,
y
i
t
y_i^{t}
yit是向量的正确标签,
N
t
N^t
Nt是任务
t
t
t中的实体数量。
如果忽略结点和边的内在依赖关系(Inter-dependencies),我们可以直接通过每个任务的最高分数来预测标签,之后生成局部的最佳图
G
^
\hat{G}
G^。最佳图
G
^
\hat{G}
G^分数的计算方法为:
s
′
(
G
^
)
=
∑
t
∈
T
∑
i
=
1
N
t
max
y
^
i
t
s'(\hat{G})=\sum_{t\in T}\sum_{i=1}^{N^t}{\max{\hat{y}_i^t}}
s′(G^)=t∈T∑i=1∑Ntmaxy^it
其中,
T
T
T是任务的集合,将
s
′
(
G
^
)
s'(\hat{G})
s′(G^)作为
G
^
\hat{G}
G^的局部分数参考。
3.4 Global Features
我们考虑框架中的两种类型的内部依赖:
-
子任务间的作用 Cross-subtask interactions
这种依赖关系存在于实体、关系和事件之间;
-
实体之间的作用 Cross-instance interactions
这种依赖存在于一个句子中多个事件和/或关系的实例之间。
我们设计一套全局特征类型模板(Event schemas)来捕捉以上两类相互作用,模型填充所有可能的类型来生成特征,并在训练过程中学习每个特征的权重。对于给定的一张图,我们将它的全局特征向量描述为:
f
G
=
{
f
1
(
G
)
,
.
.
.
,
f
M
(
G
)
}
f
G
=
{
f
1
(
G
)
,
.
.
.
,
f
M
(
G
)
}
f_G=\{f_1(G),...,f_M(G)\}f_G=\{f_1(G),...,f_M(G)\}
fG={f1(G),...,fM(G)}fG={f1(G),...,fM(G)}
其中,
M
M
M是全局特征的数量,
f
i
(
⋅
)
f_i(\cdot)
fi(⋅)是一个函数,对某个特征求值并返回标量。比如:
f
i
(
G
)
=
{
1
,
G
h
a
s
m
u
l
t
i
p
l
e
A
T
T
C
K
e
v
e
n
t
s
0
,
o
t
h
e
r
w
i
s
e
f_i(G)=\begin{cases} 1,G\,has\,multiple\,ATTCK\,events\\ 0,otherwise \end{cases}
fi(G)={1,GhasmultipleATTCKevents0,otherwise
之后,ONEIE框架学习到一个权重向量
u
∈
R
M
u\in \R^{M}
u∈RM并且将
f
(
G
)
f(G)
f(G)和
u
u
u的点乘作为图G的全局特征分数。将图G的局部分数和全局特征分数之和作为G的全局分数:
s
(
G
)
=
s
′
(
G
)
+
u
f
(
G
)
s(G)=s'(G)+\bold{u}\bold{f}(G)
s(G)=s′(G)+uf(G)
我们假定一条语句的最佳(Gold-standard)图应该拥有最高的全局分数。所以,我们最小化该损失函数:
L
G
=
s
(
G
^
)
−
s
(
G
)
L^{G}=s(\hat{G})-s(G)
LG=s(G^)−s(G)
其中,
G
^
\hat{G}
G^是局部分类得到的图,
G
G
G是最佳图。
最终,我们在训练中最优化如下的联合目标函数:
L
=
L
I
+
∑
t
∈
T
L
t
+
L
G
L=L^I+\sum_{t\in{T}}{L^t}+L^{G}
L=LI+t∈T∑Lt+LG
3.5 Decoding
ONEIE对所有的结点和成对的边进行联合决策,得到全局的最优图。最基本的方法是计算所有候选图的全局分数,选择分数最高的作为最终结果。为了优化复杂度,我们设计了一个以束搜索为基础的解码器(Beam search-based decoder)。
对于给定的识别出的结点集 V V V、所有结点的标签分数(label scores)和他们之间的成对联系执行解码,初始束集(initial beam set)为 B = { K 0 } B=\{K_{0}\} B={K0}, K 0 K_0 K0是一个零阶图。每一步 i i i分为两小步,分别对结点和边进行扩展:
-
Node Step
选择 v i ∈ V v_i\in V vi∈V,定义候选集为 V i = { < a i , b i , l i ( k ) > ∣ 1 ≤ K ≤ β v } V_i=\{<a_i,b_i,l_i^{(k)}>|1\le K\le\beta_v\} Vi={<ai,bi,li(k)>∣1≤K≤βv},其中 l i ( k ) l_i^{(k)} li(k)表示 v i v_i vi中分数第 k k k高的局部标签分数, β v \beta_v βv是控制候选标签数量的超参数(hyper-parameter)。通过如下公式更新束集(beam set):
B ← { G + v ∣ ( G , v ) ∈ B × V i } B\leftarrow\{G+v|(G,v)\in B\times V_i\} B←{G+v∣(G,v)∈B×Vi} -
Edge Step
迭代地选择一个 i i i之前的结点 v j ∈ V , j < i v_j\in V,j<i vj∈V,j<i,同时在 v j v_j vj和 v i v_i vi之间添加可能的边。如果 v i v_i vi和 v j v_j vj都是触发器(trigger)则跳过 v j v_j vj。每一次迭代中,我们构造一个候选边集 E i j = { < j , i , l i j ( k ) > ∣ 1 ≤ k ≤ β e } E_{ij}=\{<j,i,l_{ij}^{(k)}>|1\le k\le \beta_e\} Eij={<j,i,lij(k)>∣1≤k≤βe},其中 l i j ( k ) l_{ij}^{(k)} lij(k)是 e i j e_{ij} eij中分数第 k k k高的标签, β e \beta_e βe是候选标签数量的阈值。之后,通过如下函数更新束集:
B ← { G + e ∣ ( G , e ) ∈ B × E i j } B\leftarrow \{G+e|(G,e)\in B\times E_{ij}\} B←{G+e∣(G,e)∈B×Eij}
在每次edge step的最后,如果 ∣ B ∣ |B| ∣B∣超过束的宽度 θ \theta θ,我们对候选对象按全局分数从高到低进行排序,只保留分数最高的 θ \theta θ个。
最后一步之后,返回全局分数最高的图,作为输入语句中提取的信息网络。