摘要

文章提出了一种框架，其将用于命名实体识别的【Knowledge】划分为了4类。下图为其中三类：
论文笔记：A Study of the Importance of External Knowledge in the Named Entity Recognition Task

一、简介

文章试图【量化】外部知识对NER表现的影响，并给出透明和用户可理解的解释。结果证明了外部知识的数量和命名实体识别的效果有极大的关系。

其实这个在综述《A Survey on Deep Learning for Named Entity Recognition》也提到了，NER系统的成功极大依赖于输入表示。

此类别包含的是local特征，即不依赖外部知识，直接从文本中提取的特征，包括【词法】、【句法】、【语言特性】等，比如以下特征：

Frequent mention tokens：【初衷】：有一些词在命名实体中很常见。【已有资源】：一个包含一系列命名实体的列表。【方法】：利用这个列表对词进行权重赋值。
Frequent POS Tag Sequences：【初衷】：大多数命名实体有相似的POS patterns。【方法】：先找到输入文本中的所有最长POS Patterns，然后对每个Token标记其是否属于这些模式。

疑问：Frequent POS Tag Sequences输入文本的标签序列是怎么得到的？回答：应该是可以通过现有的工具，比如LTP等

Type-infused Gazetteer Match：【方法】：文本中的token如果包含在现有的词典中，则标记为1，否则为0。
Wikipedia Link Probability：【初衷】：连接到*的一般是实体。【方法】：加入一个特征衡量该token连接到*的概率。

作者的实验是基于线性链CRF的，如果使用深度学习，这个特征似乎不好加入。而且这个特征依赖于数据集，要看数据集本身是否标记了实体链接。
Type Probability：考虑一个token是否属于一个类型

有点没看懂这个方法
Token Type Position：考虑token出现的位置。实现就用常见的【BIO】等形式。

结合NED和NER，以更好的进行命名实体识别。