第4章 关系抽取——《知识图谱概念与技术》肖仰华

4.1 概述

知识抽取(Information Extraction,IE)旨在从非结构化和半结构化文本中抽取出结构化数据。一般而言,关系抽取产生的结果为三元组<主体(Subject),谓语(Predicate),客体(Object)>,表示主体和客体之间存在谓词表达的关系。

除了从文本中或半结构化数据中国抽取关系,还可以有:

  • 人工输入
  • 从结构化数据转换而来

4.1.1 关系抽取的问题和方法分类

关系抽取的问题定义是,给定句子S,从S中抽取其包含的所有三元组<主体,谓词,客体>。由于可以先行找到或枚举三元组红的某些部分,例如。使用命名实体识别(NER)算法找到句子中包含的实体作为主体或客体,从而只需要使用句子信息填充三元组的其他缺失部分。这引起可关系抽取的多种子问题,基本上可以分为两大类:

  • 关系实体抽取:给定目标关系,从预料中抽取相应的实例。
  • 给定实体对获取相应关系
    • 关系分类:根据实体对的文本描述,将实体对的关系进行分类(通常需要预定义关系类型)。
    • 开放关系抽取:有时被称为开放信息抽取(Open、 Information Extraction,OpenIE)。

主要方法有:

  • 基于模式或规则的抽取方法:将模式或者规则与文本进行匹配,进而识别出文本所提及的三元组的主体、客体和谓词 。
  • 基于序列标注的监督学习方法:其接收一段文本作为输入,然后输出文本中每个词是否是某个关系对应实体的标注结果。
  • 基于文本分类的监督学习方法:这类方法主要针对的是关系分类问题。

4.1.2 关系抽取常用数据集

英文关系抽取最常用的数据集包括:ACE2005数据集SemEval-2010 Task 8数据集。

为了克服人工构造评测数据集的规模瓶颈,Mintz等人提出了远程监督思想,用于自动构造关系抽取的数据集。基于远程监督思想构造的数据集包括NYT和KBP数据集。

4.1.3 关系抽取评估方法

基于监督学习的关系抽取任务有两种常用的评估方法:自动评估。人工评估。

关系抽取评估的常见度量指标包括精确度(Precision)、精确度(Accuracy)、召回率(Recall)和F1值等。其公式表示如下:=TP+TNTP+FP+FN+TN准确率=\frac{TP+TN}{TP+FP+FN+TN} P=TPTP+FP精确率(P)=\frac{TP}{TP+FP} R=TPTP+FN召回率(R)=\frac{TP}{TP+FN} F1=2PRP+RF1值=\frac{2PR}{P+R} 其中,准确率(Accuracy)定于了模型预测结果与标注集的一致程度;精确率(Precision)度量了模型预测为正类的样本中的准确率;召回率(Recall)度量了模型能够将多少比例的正类样本准确预测为正类。

一般而言,精确率和召回率相互冲突(如下图所示),因此单纯考察其中任意指标都是不全面的,必须对不同参下的多组精确率-召回率对进行全面考察,从而综合评估模型。
第4章 关系抽取——《知识图谱概念与技术》肖仰华

4.2 基于模式的抽取

基于模式的关系抽取通过定义关系在文本中表达的字符、语法和语义模式,将模式与文本的匹配作为主要手段,来实现关系实例的获取。

4.2.1 基于字符模式的抽取

最直接的方法是将自然语言视为字符序列,构造字符模式,实现抽取。表达特定关系的字符模式通常被表示为一组正则表达式,随后与输入文本进行匹配,即可完成关系抽取。

关系 模式 例句
作品-作者 “《$arg1》,是现代文学家$arg2的散文集。” “《朝花夕拾》,是现代文学家鲁迅的散文集。”
作频-原名 “《$arg1》原名《$arg2》” “《朝花夕拾》原名《旧事重提》”

由于该方法对文本和模式的相似性要求较高,故它们往往用于抽取有着固定的描述模式的内容,以及由固定模板生成的网页。

4.2.2 基于语法模式的抽取

通过引入文本所包含的语法信息(包括词法和句法等)来描述抽取模式,可以显著增强模式的表达能力,进而提升模式的准确率和召回率。下表给出了集中常见关系的语法模式。

关系 模式
作品-作者 NP 著有 (NP、)*
人物-职业 NP (是|是一位)ADJP (NP、)*NP

相比于单存的字符模式,语法模式表达能力更强,同时仍能保证模式匹配的正确性。

4.2.3 基于语义模型的抽取

语法模式通过引入词性标签等信息增强了描述能力,但是语法模式是一种相对粗糙的描述,在抽取过程中仍容易引入错误。例如,“NP 战胜 NP”模式,对于句子“小明战胜自己”,那将抽取出错误的关系实例。优化语法模式的一种重要手段就是引入语义元素。下图列举了基于概念的语义模式示例。

关系 模式 例句
国家-总统 $政治家 当选 $国家 总统 奥巴马当选美国总统
作者-作品 $歌手 发行 $专辑 林俊杰发行过于专辑《伟大的渺小》\

未完待续…