信息抽取简介
1.信息抽取内容
信息抽取包括:抽取实体和抽取关系
1.1 用例子说明实体和关系的概念
有一篇文章,内容如下: 我们要抽取它的实体和关系
(1) 标记实体和实体类型
其中:ORG表示组织;LOC表示位置;EVENT表示事件;RES表示饭店
(2) 抽取关系,如下图
注意:这里在判断hotel实体 与Times Square 实体关系时,会经历 “it"的分类问题。句子中的 第一个"it” 可以指代 “hotel”, "Hinton Property ", “NYC”,要判断 “it"到底指代谁,其实就是“指代消解”的问题。凭我们这么多年的英语学习,可以知道 “it” 指的是 “hotel”,所以是"hotel” located on Times Square ; 第二个"it"也是指 “hotel”。
(3) : 信息抽取流程
- 找出实体,并标记实体类型
- 关系定义 (通常由人工定义) 和关系分析
- 指代消解
- 实体统一
- 实体消歧(解决一词多义问题)
(4) : 一个应用场景: 文本自动摘要