《Deep contextualized word representations》论文研读

本文作者推出了一种新的基于深度学习框架的词向量表征模型：ELMo（Embeddings from Language Models）模型，从缩写就可以看出模型本质是从语言模型而来的。

一、常见词向量比较

1、ELMo 相对于 word2vec 、 glove 的优点？
Word2vec和glove都属于静态的词向量（知识点1：了解这两个的原理），无法解决一词多义的问题。
ELMo、GPT、bert词向量，它们都是基于语言模型的动态词向量。

2、ELMo vs GPT & BERT

1）特征提取器：
ELMo采用LSTM，GPT和BERT用Transformer。
2）单、双向语言模型：
BERT和ELMo采用双向语言模型, GPT采用单向语言模型。但是ELMo实际上是两个单向语言模型（方向相反）的拼接，这种融合特征的能力比bert一体化融合特征方式弱。

二、ELMO的原理：

整体图：
《Deep contextualized word representations》论文研读

1、双向LSTM语言模型：

有两特点：1.用了多层LSTM，2.结合了forward和backward LM。
elmo使用的双向lstm语言模型，论文中简称biLM，由一个forward LM和一个backward LM构成。所要优化的目标：最大化对数前向和后向的似然概率，公式如下：
前向语言模型：
《Deep contextualized word representations》论文研读

后向语言模型：
《Deep contextualized word representations》论文研读

合起来就是双向语言模型：
《Deep contextualized word representations》论文研读

解析：Θx和Θs表示两个网络共享的参数。其中Θx表示映射层的共享，将单词映射为word embedding的共享，就是说同一个单词，映射为同一个word embedding。Θs表示上下文矩阵的参数，这个参数在前向和后向lstm中是相同的。

2、ELMo: Embeddings from Language Models

预训练好上面的biLM模型之后，ELMo就是根据下面公式来作词表示，
《Deep contextualized word representations》论文研读

解析：对于每个token tk 一个L层的biLM会得到2L+1个表示。(其中 h (LM k,0)表示的是token embedding layer，而其余Bi-LSTM层中表示为《Deep contextualized word representations》论文研读 )

使用方法：
最简单的方法就是使用最顶层的lstm输出h (LM k,0)；
一般的方法是：ELMo把所有层的R压缩在一起形成一个单独的vector：
《Deep contextualized word representations》论文研读

解析：stask 是softmax-normalized的权重，而ytask则允许任务模型对ELMo向量进行缩放。

大部分的NLP的模型都会有一层词向量层，而我们要做的无非就是用ELMo与词向量层结合，让模型去训练学习ELMo的内部状态的线性组合，然后，生成一个共同的词向量《Deep contextualized word representations》论文研读

参考：
https://zhuanlan.zhihu.com/p/51679783

《Deep contextualized word representations》论文研读

一、常见词向量比较

二、ELMO的原理：

相关推荐