命名实体识别NER论文调研

因为NER任务与笔者之前做的CCF互联网金融新实体识别竞赛相关,所以这两个月也调研了一些NER的算法，这两年的NER算法思想主要集中在将词典信息融入训练过程，达到减少中文语义歧义的效果。

CCF互联网金融新实体识别竞赛

https://www.datafountain.cn/competitions/361

命名实体识别NER论文调研

当前竞赛NER任务的baseline

BERT + BILSTM + CRF

BERT + IDCNN[1] + CRF：IDCNN可以大致理解为CNN + pooling + upsampling，可以并行化运算，训练速度会比BILSTM快很多，但不会跟CNN一样，CNN切换pooling与upsampling会损失一部分信息。（pooling减小图像尺寸增大感受野， upsampling增大图像尺寸还原原始尺寸，两者在运算过程中不可逆，因此会导致一部分信息损失。）

IDCNN原理：本质和CNN一样，但是通过在卷积核之间增加“空洞”（即0），使IDCNN的卷积在不需要POOLing的情况下增加感受野，增大看到信息的范围。

缺点：1)会丢失局部信息; 2)虽说可以看得比较远，但是有时候远距离的信息并没有相关性。

应用场景：1)需要全局信息的图像任务; 2)需要解决长距离信息依赖的语音与文本任务。

命名实体识别NER论文调研

目前调研了13篇NER论文，主要是看哪些论文能否嵌入金融新实体竞赛的baseline框架，达到提高代码复用率且实验结果佳的效果，其次是有些论文复现难度过高，只能做一些原理的分享。

改进结构提升效果

[2018]Chinese NER Using Lattice LSTM

原理：利用词典的信息将链式结构转成图结构，多出来的节点就是词典信息，在训练过程中更新权重。

缺点：①不支持batch;

②如果识别任务是识别新词，效果应该也不高，比如这次竞赛要求识别金融新实体，基本上都是新词。

③过多的单词会让基于字符的NER模型退化成基于单词的NER模型，这样子就会遭受分词错误的影响。

命名实体识别NER论文调研

[2019 June]An Encoding Strategy Based Word Character LSTM for Chinese NER

代码链接

原理：利用词典的信息将链式结构转成图结构，多出来的节点就是词典信息，在训练过程中更新权重。WC-LSTM与Lattic LSTM思想一致，但基于Lattic LSTM的缺点进行了一些修正。WC-LSTM利用了四种不同的策略来将单词信息编码为固定大小的矢量，使其可以分批训练并适应各种应用场景。

改进方法：Lattic LSTM之所以不能batch训练的原因是每个字之间增加的节点数目不一致，可能0个也可能多个。WC-LSTM直接硬性规定每个字之间有且仅有一个节点来代表词信息，如果字与字之间没有词信息就用来表示，这样的修改让结构统一，因此能使用batch训练。最后词向量和字向量concat，输出最终向量。（如下图）

命名实体识别NER论文调研