Reinforcement Learning for Relation Classification from Noisy Data

摘要：目前存在的关系抽取方法大多是依赖于远程监督假设的，即所有包含两个相同实体的句子都只表达一种关系。但是这些方法都是在包级别上做关系抽取，不能明确的映射出单句和关系之间的联系，并且由远程监督产生的错误标签还在影响着模型的精度。该文在含有噪声的数据集上提出了一种新颖的基于单句的关系分类模型，该模型含有两个主要的模块，一是实例选择器，二是关系分类器。实例选择器过滤出高质量的句子，关系分类器使用这些句子来进行训练。特别的是，在训练的过程中，关系分类器会对实例选择器产生一个反馈。该模型的两个子模块在训练的过程中是联合优化的。

当前工作存在的缺点：

（1）不能进行单句级别的关系预测。

（2）如果一个包中的所有句子都不是真正的表达实体对之间的正确关系，那么该包将会严重的影响模型的性能。

对于第一个问题，该文提出的模型能过在单句级别上进行关系分类任务。（见下图）

关系抽取之——强化学习

对于第二个问题，不管是先前的多实例学习还是注意力学习能不能完全的避免这个问题。即如果当一个包中的所有句子都不能正确的描述该关系，那么所有的机制将失去了它们的意义。该模型通过实例选择器和关系分类器来处理这个问题。实例选择器能够先从一个句子包中过滤出高质量的句子，然后再将这些句子送到关系分类器中。如果当一个包中的所有句子都被视为错误标签的话，那么我们将丢弃该包。该模型的重点在于如何联合训练两个模型，并且让实例选择器正确的筛选出正确的标签实例。

该文在实例选择中使用强化学习策略来解决这一挑战。直觉上来说，我们对实例选择器没有十分明确的监督策略，但是我们可以对筛选出的句子集合进行整体性能的度量。因此，实例选择器包含以下两个过程：首先，进行trial-and-error搜索，模型尝试着挑选出句子并且或得关系分类器的反馈信号；然后，实例选择器会或得关系分类器的反馈，当且仅一次完整的实例选择过程进行后。这也是强化学习中常见的滞后性。

Methodology

Problem Definition

该文将关系实例选择任务描述如下，关系抽取之——强化学习 xi是包含两个实体的句子向量化表示，ri为由远程监督技术产生的类型标签。目标是判断该句子是否真正的描述了该关系，是否该句子应该被选择为训练实例。对于关系分类任务来说，我们的最终目的就是去估算出该句子属于该类别的相似度关系抽取之——强化学习。

Overview

在实例选择器中，每个句子的向量化表示Xi有一个与之对应的action ai来表明该句子是否被选择为训练实例。状态Si是由当前句子Xi、该包中已经被选择的句子关系抽取之——强化学习、和句子中的实体hi和ti共同决定的。实例选择器使用选择策略根据当前的状态Si去生成该句子的ai。关系分类器使用卷积神经网络去预测句子的类别。关系分类器会对实例选择器返回一个反馈信号去优化政策函数。完整的过程如下图所示：

关系抽取之——强化学习

Instance Selector

该文将实例选择器转换为了一个强化学习问题，实例选择器作为代理（agent），同关系分类器和数据组成的环境进行交互。为了更加高效的训练，该文将训练数据集关系抽取之——强化学习切分成N个bag，在每对一个包中的数据筛选完后会对实例选择器反馈一个reward。每个bag中都含有一个实体对，每个Bk是一系列序列句子组成的，这些句子都含有相同的关系标签rk，但是这些标签很可能是带有噪声的。对所有的bag都进行过滤、训练、反馈后，我们将每个包中被选择的句子合成一个新的clean数据集关系抽取之——强化学习。然后在clean的数据集上训练单句级别的关系分类模型。

State. 当在决定bag中的第i个句子是否应当被选择时，Si是由当前句子、已经被选择的句子和实体对共同决定的。

Action. 该模型定义action 关系抽取之——强化学习，其值来决定当前句子是否应当被选择为训练实例。策略函数被定义为：

关系抽取之——强化学习

Reward. reward是被选句子的一个指示器，对于一个bag中关系抽取之——强化学习句子的选择，当且仅当该包中的所有句子都被做出了抉择后才会生成一个reward。换句话说，我们接受到的reward总是延迟的，例如在时我们接受到的是B bag中产生的reward。在其他的状态，reward总是为0的。