4.1 概述

知识抽取（Information Extraction，IE）旨在从非结构化和半结构化文本中抽取出结构化数据。一般而言，关系抽取产生的结果为三元组<主体（Subject），谓语（Predicate），客体（Object）>，表示主体和客体之间存在谓词表达的关系。

除了从文本中或半结构化数据中国抽取关系，还可以有：

人工输入
从结构化数据转换而来

4.1.1 关系抽取的问题和方法分类

关系抽取的问题定义是，给定句子S，从S中抽取其包含的所有三元组<主体，谓词，客体>。由于可以先行找到或枚举三元组红的某些部分，例如。使用命名实体识别（NER）算法找到句子中包含的实体作为主体或客体，从而只需要使用句子信息填充三元组的其他缺失部分。这引起可关系抽取的多种子问题，基本上可以分为两大类：

关系实体抽取：给定目标关系，从预料中抽取相应的实例。
给定实体对获取相应关系
- 关系分类：根据实体对的文本描述，将实体对的关系进行分类（通常需要预定义关系类型）。
- 开放关系抽取：有时被称为开放信息抽取（Open、 Information Extraction，OpenIE）。

主要方法有：

基于模式或规则的抽取方法：将模式或者规则与文本进行匹配，进而识别出文本所提及的三元组的主体、客体和谓词。
基于序列标注的监督学习方法：其接收一段文本作为输入，然后输出文本中每个词是否是某个关系对应实体的标注结果。
基于文本分类的监督学习方法：这类方法主要针对的是关系分类问题。

4.1.2 关系抽取常用数据集

英文关系抽取最常用的数据集包括：ACE2005数据集、SemEval-2010 Task 8数据集。

为了克服人工构造评测数据集的规模瓶颈，Mintz等人提出了远程监督思想，用于自动构造关系抽取的数据集。基于远程监督思想构造的数据集包括NYT和KBP数据集。

4.1.3 关系抽取评估方法

基于监督学习的关系抽取任务有两种常用的评估方法：自动评估。人工评估。

关系抽取评估的常见度量指标包括精确度（Precision）、精确度（Accuracy）、召回率（Recall）和F1值等。其公式表示如下： $准确率=\frac{TP+TN}{TP+FP+FN+TN}$ $精确率（P）=\frac{TP}{TP+FP}$ $召回率（R）=\frac{TP}{TP+FN}$ $F1值=\frac{2PR}{P+R}$ 其中，准确率（Accuracy）定于了模型预测结果与标注集的一致程度；精确率（Precision）度量了模型预测为正类的样本中的准确率；召回率（Recall）度量了模型能够将多少比例的正类样本准确预测为正类。

一般而言，精确率和召回率相互冲突（如下图所示），因此单纯考察其中任意指标都是不全面的，必须对不同参下的多组精确率-召回率对进行全面考察，从而综合评估模型。
第4章关系抽取——《知识图谱概念与技术》肖仰华

4.2 基于模式的抽取

基于模式的关系抽取通过定义关系在文本中表达的字符、语法和语义模式，将模式与文本的匹配作为主要手段，来实现关系实例的获取。

4.2.1 基于字符模式的抽取

最直接的方法是将自然语言视为字符序列，构造字符模式，实现抽取。表达特定关系的字符模式通常被表示为一组正则表达式，随后与输入文本进行匹配，即可完成关系抽取。

关系	模式	例句
作品-作者	“《$arg1》,是现代文学家$arg2的散文集。”	“《朝花夕拾》,是现代文学家鲁迅的散文集。”
作频-原名	“《$arg1》原名《$arg2》”	“《朝花夕拾》原名《旧事重提》”

由于该方法对文本和模式的相似性要求较高，故它们往往用于抽取有着固定的描述模式的内容，以及由固定模板生成的网页。

4.2.2 基于语法模式的抽取

通过引入文本所包含的语法信息（包括词法和句法等）来描述抽取模式，可以显著增强模式的表达能力，进而提升模式的准确率和召回率。下表给出了集中常见关系的语法模式。

关系	模式
作品-作者	NP 著有（NP、）*
人物-职业	NP （是\|是一位）ADJP （NP、）*NP

相比于单存的字符模式，语法模式表达能力更强，同时仍能保证模式匹配的正确性。

4.2.3 基于语义模型的抽取

语法模式通过引入词性标签等信息增强了描述能力，但是语法模式是一种相对粗糙的描述，在抽取过程中仍容易引入错误。例如，“NP 战胜 NP”模式，对于句子“小明战胜自己”，那将抽取出错误的关系实例。优化语法模式的一种重要手段就是引入语义元素。下图列举了基于概念的语义模式示例。

关系	模式	例句
国家-总统	$政治家当选 $国家总统	奥巴马当选美国总统
作者-作品	$歌手发行 $专辑	林俊杰发行过于专辑《伟大的渺小》\

第4章 关系抽取——《知识图谱概念与技术》肖仰华