论文学习 -- Attending to Characters in Neural Sequence Labeling Models
2016 COLING 的一篇文章,在序列标注的框架里,同时使用character级别的embedding和word级别的embedding
并且在两种embedding之间使用attention的机制结合
序列标注模型: BI-LSTM + CRF, 有一个问题不太理解:
为什么这里要加一个层,解释的理由不是太理解。
loss function是最小化负的正样本的log概率,概率是CRF得到的
加上character level的embedding,并用attention将两个结合的模型图是:
x是word embedding,m是有BI-LSTM得到的character级别的embedding,跟前面一样,在双向hidden state被concate以后还接了一层得到embedding m,然后x 和 m被feed到attention里面:
并且在loss中加了一项,对于词表中的高频词,希望charater embedding是能学到embedding的,但这个约束只针对在词表内的词。
加上charater embedding主要的好处就是处理OOV