第4章 关系抽取——《知识图谱概念与技术》肖仰华
4.1 概述
知识抽取(Information Extraction,IE)旨在从非结构化和半结构化文本中抽取出结构化数据。一般而言,关系抽取产生的结果为三元组<主体(Subject),谓语(Predicate),客体(Object)>,表示主体和客体之间存在谓词表达的关系。
除了从文本中或半结构化数据中国抽取关系,还可以有:
- 人工输入
- 从结构化数据转换而来
4.1.1 关系抽取的问题和方法分类
关系抽取的问题定义是,给定句子S,从S中抽取其包含的所有三元组<主体,谓词,客体>。由于可以先行找到或枚举三元组红的某些部分,例如。使用命名实体识别(NER)算法找到句子中包含的实体作为主体或客体,从而只需要使用句子信息填充三元组的其他缺失部分。这引起可关系抽取的多种子问题,基本上可以分为两大类:
- 关系实体抽取:给定目标关系,从预料中抽取相应的实例。
- 给定实体对获取相应关系
- 关系分类:根据实体对的文本描述,将实体对的关系进行分类(通常需要预定义关系类型)。
- 开放关系抽取:有时被称为开放信息抽取(Open、 Information Extraction,OpenIE)。
主要方法有:
- 基于模式或规则的抽取方法:将模式或者规则与文本进行匹配,进而识别出文本所提及的三元组的主体、客体和谓词 。
- 基于序列标注的监督学习方法:其接收一段文本作为输入,然后输出文本中每个词是否是某个关系对应实体的标注结果。
- 基于文本分类的监督学习方法:这类方法主要针对的是关系分类问题。
4.1.2 关系抽取常用数据集
英文关系抽取最常用的数据集包括:ACE2005数据集、SemEval-2010 Task 8数据集。
为了克服人工构造评测数据集的规模瓶颈,Mintz等人提出了远程监督思想,用于自动构造关系抽取的数据集。基于远程监督思想构造的数据集包括NYT和KBP数据集。
4.1.3 关系抽取评估方法
基于监督学习的关系抽取任务有两种常用的评估方法:自动评估。人工评估。
关系抽取评估的常见度量指标包括精确度(Precision)、精确度(Accuracy)、召回率(Recall)和F1值等。其公式表示如下: 其中,准确率(Accuracy)定于了模型预测结果与标注集的一致程度;精确率(Precision)度量了模型预测为正类的样本中的准确率;召回率(Recall)度量了模型能够将多少比例的正类样本准确预测为正类。
一般而言,精确率和召回率相互冲突(如下图所示),因此单纯考察其中任意指标都是不全面的,必须对不同参下的多组精确率-召回率对进行全面考察,从而综合评估模型。
4.2 基于模式的抽取
基于模式的关系抽取通过定义关系在文本中表达的字符、语法和语义模式,将模式与文本的匹配作为主要手段,来实现关系实例的获取。
4.2.1 基于字符模式的抽取
最直接的方法是将自然语言视为字符序列,构造字符模式,实现抽取。表达特定关系的字符模式通常被表示为一组正则表达式,随后与输入文本进行匹配,即可完成关系抽取。
关系 | 模式 | 例句 |
---|---|---|
作品-作者 | “《$arg1》,是现代文学家$arg2的散文集。” | “《朝花夕拾》,是现代文学家鲁迅的散文集。” |
作频-原名 | “《$arg1》原名《$arg2》” | “《朝花夕拾》原名《旧事重提》” |
由于该方法对文本和模式的相似性要求较高,故它们往往用于抽取有着固定的描述模式的内容,以及由固定模板生成的网页。
4.2.2 基于语法模式的抽取
通过引入文本所包含的语法信息(包括词法和句法等)来描述抽取模式,可以显著增强模式的表达能力,进而提升模式的准确率和召回率。下表给出了集中常见关系的语法模式。
关系 | 模式 |
---|---|
作品-作者 | NP 著有 (NP、)* |
人物-职业 | NP (是|是一位)ADJP (NP、)*NP |
相比于单存的字符模式,语法模式表达能力更强,同时仍能保证模式匹配的正确性。
4.2.3 基于语义模型的抽取
语法模式通过引入词性标签等信息增强了描述能力,但是语法模式是一种相对粗糙的描述,在抽取过程中仍容易引入错误。例如,“NP 战胜 NP”模式,对于句子“小明战胜自己”,那将抽取出错误的关系实例。优化语法模式的一种重要手段就是引入语义元素。下图列举了基于概念的语义模式示例。
关系 | 模式 | 例句 |
---|---|---|
国家-总统 | $政治家 当选 $国家 总统 | 奥巴马当选美国总统 |
作者-作品 | $歌手 发行 $专辑 | 林俊杰发行过于专辑《伟大的渺小》\ |