搭建NER分类器

评估NER分类器

精确率/召回率
F1-score

命名实体识别 NER

简述：统计每一个单词的实体类型，记录针对于每一个单词，概率最大的实体类型。
该模型不需要训练，只需进行统计即可。
比如，我们想输入一句话中每个单词（这里以 phone 为例）的实体类型。

该模型最大的缺点是，以后输出的所有单词的实体类型都固定了。比如这里的phone 以后就永远是 ‘B-tos’.

该模型优点是，简单。而且效果不会特别差。一般作为基准模型。

该方法最只要的一步就是：特征工程

在自然语言中常见的特征有：
这里以 “ The professor Colin proposed model for NER in 1999” 中的Colin为例

常见的特征种类：离散型（Categoral），连续型（Continue），Ordinal Feature

离散型（Categoral feature）
连续型（Continue）
比如身高：178，180
A:将连续性数据直接缩放到（0, 1）之间
B:将连续性数据缩放到高斯分布N(0, 1)之间
C: 连续型数据离散化
Ordinal Feature
比如像成绩排名：A,B,C,D,E. 就是一个 Ordinal Feature。总共虽然只有5类，但是类别之间是有大小区别的。比如这里 A - B == B - C.
而离散型(Categoral feature) 的类之间是没有区别的，比如男，女.

处理Ordinal Feature的方法：