【论文笔记】Neural Architectures for Named Entity Recognition
NER的深度学习方法:最经典最state-of-the-art的模型就是LSTM+CRF
本文最大的特点是应用pre-trained word embedding,以及character-based word embedding,更好的捕捉到了形态和正交的信息。
以下是CRF层训练模型,数据流动图,以及训练过程中计算scores的大致流程,在infer新的word’s label时,previous略有修改。
作者提出了一种使用小数据量的监督数据结合大量无标注语料的训练模式,使用biLSTM+crf的模型进行训练。 本方法的一个特点是jointly,即对句子进行序列标注时,词之间的label不是独立的,而是考虑previous词的标签信息进而标记obvious的tag.
Tagging Schemes
使用IOBES,Inside,Outside,Beginning,End,Singel。
Word-embedding(Character-based models of words)
本论文最大的特点是,在训练中学习字粒度特征,而不是手工建立单词前缀和后缀信息的特征工程。 学习字粒度的embedding有利于学习特定任务或者特定领域中的表示(representation)。
(1)字符查找表是随机初始化的,包含了每个字符的embedding。通过一个双向lstm将word中的每个character相关联起来,正向lstm得到character embedding的正向序列,反向lstm得到反向序列。
(2)从双向lstm得到正向和反向的character embedding序列,拼接起来得到一个word embedding,这个embedding是字粒度(character-level)。
(3) 最后将(2)中字粒度的word embedding与词粒度的embedding拼接起来得到最后的embedding。词粒度的embedding是通过查找word lookup-tabel得到。
Dropout training
初始实验表明,当与词粒度的embedding并接后,字粒度的embedding并没有对性能发生改变。为了使模型能够充分利用这两种表示,加入了dropout层。在最后的embedding后,在输入到lstm模型前加dropout层。 dropout给模型性能带来了很大改进