A Survey on Deep Learning for Named Entity Recognition(2020)

本文介绍Deep Learning 在命名实体识别上的应用,主要介绍三部分:输入的分布式表示、上下文编码器(用于捕获标签解码器的上下文)和标签解码器(用于预测给定顺序中词的标签)。

命名实体识别(NER)的任务是识别文本中的组织、人和地理位置的名称以及货币、时间和百分比表达式。

论文地址:A Survey on Deep Learning for Named Entity Recognition

NER资源:数据集和工具

A Survey on Deep Learning for Named Entity Recognition(2020)

NER评估指标:

NER系统通常通过将其输出与人工注释进行比较来进行评估。可以通过精确匹配或宽松匹配来量化比较。

NER本质上涉及两个子任务:边界检测和类型识别。

精确评估指标:Precision、Recall和F得分。

宽松匹配评估:如果为一个实体分配了正确的类型而不考虑其边界,则只要该类型与基本真值边界重叠,就认为该类型正确。

命名实体识别的方法:

  • 基于规则的方法

基于规则的NER系统依赖于手工制定的规则。可以基于特定领域的地名词典和句法词法模式设计规则。

  • 无监督学习

一种典型方法是聚类。基于聚类的NER系统基于上下文相似性从聚类组中提取命名实体。关键思想是,可以使用在大型语料库上计算出的词汇资源,词汇模式和统计信息来推断提及的命名实体。

  • 基于特征的监督学习方法

应用监督学习,NER被转换为多类分类或序列标记任务。给定带注释的数据样本,功能经过精心设计以表示每个训练示例,然后利用机器学习算法来学习模型,以从看不见的数据中识别出相似的模式。

许多机器学习算法已在有监督的NER中应用,包括隐马尔可夫模型(HMM),决策树,最大熵模型,支持向量机(SVM)和条件随机字段(CRF)。

  • 基于深度学习的方法

与基于特征的方法相比,深度学习有助于自动发现隐藏的特征。

将深度学习技术应用于NER有三个核心优势。
首先,NER受益于非线性变换,该变换生成从输入到输出的非线性映射。与线性模型(例如对数线性HMM和线性链CRF)相比,基于DL的模型能够通过非线性**函数从数据中学习复杂而复杂的特征。
其次,深度学习为设计NER功能节省了大量精力。传统的基于功能的方法需要大量的工程技术和领域专业知识。另一方面,基于DL的模型可有效地从原始数据中自动学习有用的表示形式和潜在因素。
第三,可以通过梯度下降在端到端范式中训练深度神经NER模型。此属性使我们能够设计可能复杂的NER系统。

A Survey on Deep Learning for Named Entity Recognition(2020)

Distributed Representations for Input

Word-level Representation

A Survey on Deep Learning for Named Entity Recognition(2020)

Character-level Representation

A Survey on Deep Learning for Named Entity Recognition(2020)

Hybrid Representation

BiLSTM-CRF、BiLSTM-CNN等

Context Encoder Architectures

A Survey on Deep Learning for Named Entity Recognition(2020)

A Survey on Deep Learning for Named Entity Recognition(2020)

A Survey on Deep Learning for Named Entity Recognition(2020)

A Survey on Deep Learning for Named Entity Recognition(2020)

Tag Decoder Architectures

它使用上下文相关的表示作为输入和产生与输入序列相对应的标签序列。图12总结了标签解码器的四种体系结构:MLP + softmax层,条件随机场(CRF),递归神经网络和指针网络。

A Survey on Deep Learning for Named Entity Recognition(2020)

表3总结了根据神经网络NER的架构选择而进行的最新工作。 BiLSTM-CRF是使用深度学习的NER最常见的体系结构。

A Survey on Deep Learning for Named Entity Recognition(2020)

体系结构比较

我们从三个角度讨论利弊:输入,编码器和解码器。

Input:NER系统的成功在很大程度上依赖于其输入表示,但是关于是否应该使用外部知识或如何将其集成到基于深度学习的NER模型方面尚未达成共识,使用外部知识可以提高NER的表现。但是,缺点也很明显:1)获取外部知识费时费力且计算量很大 。2)集成外部知识会对端到端学习产生不利影响,并损害基于深度学习的系统的通用性。

Encoder:当在巨大的语料库上对Transformer进行预训练时,Transformer编码器比LSTM更有效。如果未预先训练并且训练数据有限,则Transformer在NER任务上将失败。另一方面,当序列nnn的长度小于表示形式ddd的维数时,Transformer编码器比recursive layer更快。与此同时噪声数据的NER仍具有挑战性。

Decoder:RNN和Pointer Network解码器的解码机制可能会对其速度产生重大影响,并且会是实现并行化的障碍。CRF标签解码器是最常用的选择,但对于实体数量很大的时候可能会产生很大的计算代价。