Semi-supervisedsequence tagging with bidirectional language models

摘要：这篇ACL 2017的文章来自Allen研究院，在AllenNLP的NLP工具中使用该研究结果集成为英文NER方案；在这篇文章中，作者提出了一般的半监督方式对上下文嵌入的预训练方法，这种方法采用了双向语言模型对NLP系统进行建模，之后作者利用模型在序列标注任务上取得了当时最优的结果。

1 介绍

得益于预训练模型的简单性和有效性，词向量已经广泛应用到NLP系统中。大量的研究表明，预训练模型能够捕获到有效的语义和语法信息，这些信息在NLP的很多下流任务中具有巨大价值。

论文的主要贡献在于：

研究表明了LM模型捕捉的上下文语义表示在有监督的序列标注模型中具有很大的价值。
研究表明了基于双向语义捕捉语义的LM模型能够提升仅基于前向语义捕捉的LM模型的性能。

2 增强语言模型序列标注（TagLM）

2.1 概览

图1中展示的是TagLM模型的主要组件。在大量、无标签的语料上进行预训练得到词嵌入和LM模型上，作者抽取了所给句子的每个词的嵌入表示和句子的LM嵌入表示，并用于有监督的序列标注模型。

论文解读：半监督双向语言模型的序列标记

图1:TagLM，语言模型组件（LM，橙色）用来增强在传统序列标注模型中输入单词的表示（灰色）

2.2 基线序列标注模型

本文的序列标注基线模型（图2）是分层的神经标注模型，紧跟着如下的最近研究：Ma and Hovy, 2016;Lample et al., 2016; Yang et al., 2017; Chiu and Nichols, 2016。

句子中的词表示按照如下方式：

论文解读：半监督双向语言模型的序列标记

论文解读：半监督双向语言模型的序列标记是句子的第k个单词的最终表示，为该单词利用CNN(Ma and Hovy, 2016;Chiu and Nichols, 2016)或RNN(Yang et al., 2017; Lample et al., 2016)网络捕获的形态信息，并以参数化表示；为该单词在预训练模型中的词向量表示，并且在训练的时候进行微调，以论文解读：半监督双向语言模型的序列标记参数化表示。为二者的联结。

上下文语义表示按照如下方式得到：

论文解读：半监督双向语言模型的序列标记

作者用了双层RNN网络用来捕获词在句子中的语义表示。上述为第一层RNN的隐藏层计算方式，论文解读：半监督双向语言模型的序列标记为句子中第k个词的表示，按照上述方式得到，为第k个词的前一个词的前向传播第一层隐藏状态，为第k个词的后一个词的反向传播第一层隐藏状态，为二者的联结。上述RNN可以使用GRU也可以使用LSTM，取决于具体任务进行选择。

最后，RNN最后一层的输出层连接一个Dense层（Keras中可直接调用该层）用来预测每一个标签的可能得分。由于ner序列标注标签的依赖性（例如使用BIOES进行标注，I-PER不可能紧挨着B-LOC出现），作者在每一个标签后添加一层，并在训练阶段用前向-后向算法计算句子的CRF损失，并使用维特比算法在测试阶段找到最可能的句子序列。

论文解读：半监督双向语言模型的序列标记

图2：TagLM模型概览。预训练的双向LM顶层嵌入叠加后和序列标注模型作运算

2.3 双向LM

语言模型就是计算序列论文解读：半监督双向语言模型的序列标记存在的可能性，可用下述公式表示

论文解读：半监督双向语言模型的序列标记

本文的idea受2016年Jozefowicz的研究启发得到，之前的研究利用多层LSTM将序列中的前k个词表示（字符特征或词嵌入）嵌入到论文解读：半监督双向语言模型的序列标记中，并接一个softmax层预测第k+1个词。本文作者受到启发利用后k个词预测第k-1个词得到后k个词的反向嵌入表示，在前向和后向训练完成后移掉softmax层，并取出最后一层的隐藏状态作联结即得到论文解读：半监督双向语言模型的序列标记的LM表示，即。