参考链接

一、模型架构:ELMo: Embeddings from Language Models

与最广泛使用的词嵌入不同，ELMo词嵌入是整个输入句子的函数。这个函数就像是一个神经网络内部状态的线性函数，该网络是一个带有字符卷积层的两层的双向语言模型(biLM)，该网络在大规模的预料库被训练。

给定长度为N的序列 $(t_1,t_2,…,t_N)$ ,则语言模型计算序列的概率，计算公如下： $P(t_1,t_2,…,t_N )=∏_{k=1}^{N}p(t_k |t_{k-1},t_{k-2},…,t_N)$
现在最先进的语言模型：通过词向量矩阵或字符级CNN计算一个上下文无关的词向量 $x_k^{LM}$ ，然后将这些词向量传递给L层的前向LSTM， $\overrightarrow{h}_{k,j}^{LM }$ 表示LSTM第j层在位置k的输出，最后使用 $\overrightarrow{h}_{k,L}^{LM }$ 加上softmax层来预测下一个词 $t_{k+1}$
反向LSTM语言模型的计算公式如下： $P(t_1,t_2,…,t_N )=∏_{k=1}^Np(t_k |t_{k+1},t_{k+2},…,t_N)$ $\overleftarrow{h}_{k,j}^{LM}$ 表示：LSTM第 $j$ 层在位置 $k$ 的输出
双向语言模型(biLM)结合上面两个方向LSTM构成，它最大化下面公式： $∑_{k=1}^N(log⁡p(t_k│t_1,…,t_{k-1};Θ_x,(\overrightarrow{Θ}_{Lstm},Θ_s )+log⁡p(t_k│t_{k+1},…,t_{N};Θ_x,\overleftarrow{Θ}_{Lstm} ,Θ_s ) )$ 词向量层的参数 $Θ_x$ 和softmax层参数 $Θ_s$ 在前向和后向语言模型中是共享，但前向后向LSTM参数是分开的

ELMo：是一个biLM中间层表示(输出)的一种特殊的组合。
对每一个词 $t_k,L$ 层的biLM都会生成 $L+1$ 个表示，+1是词向量层： $R_k=\{x_k^{LM},\overrightarrow{h}_{k,j}^{LM}, \overleftarrow{h}_{k,j}^{LM}│j=1,2,…,L\}=\{h_{k,j}^{LM}│j=0,1,..,L\} h_{k,j}^{LM}=[\overrightarrow{h}_{k,j}^{LM}, \overleftarrow{h}_{k,j}^{LM}]$
为了兼容下游模型，ELMo线性组合所有层的R为一个向量: $ELMo_k=E(R_k;Θ_e)$ ,其中最常用的的合并方式就是只选择最高层: $ELMo_k=h_{k,L}^{LM}$ 。一般情况： $ELMo_k^{task}=E(R_k;Θ_e )=γ^{task} ∑_{j=0}^Ls_j^{task} h_{k,j}^{LM}$ 其中： $γ^task$ 是放缩常量； $s_j^{task}$ 是softmax的正则化权重

给定一个预训练好的biLM模型与一个特殊任务的模型架构，使用biLM来提升目标语言模型是一个简单的过程：
- 首先我们运行biLM模型并为每个词记录所有层的输出
- 然后让目标模型学习一个这些输出的线性组合
首先我们固定住biLM的参数权重，目标任务学习一个线性组合： $ELMo_k^{task}=E(R_k;Θ_e )=γ^{task} ∑_{j=0}^Ls_j^{task} h_{k,j}^{LM}$ 然后将上下文无关的词向量 $x_{k}$ 与 $ELMo_k^{task}$ 进行拼接，得到 $[x_k,ELMo_k^{task}]$ ,再将其输入目标模型架构中去。
对于一些任务(如SNLI,SquAD)我们发现：再让目标模型再学习一个biLM输出的线性组合将并将其与目标模型RNN的输出合并 $[h_k,ELMo_k^{task}]$ 可改善模型性能。同时我们发现：在ELMo模型中加入适当的dropout以及添加权重的 $L2（λ|(|W|)|_2^2）$ 正则到loss中可以提升模型性能。并且这里的 $L2$ 项的系数 $λ$ 越大,越有取各层平均值的意思,越小越可以发挥各个层之间的不同带来的效果。但是并不是说,越小越好。

两层双向LSTM的语言模型如下：
ELMo需要再两层之间添加残差连接：有助于高层模型的训练：
对于一般的语言模型再输入层通常是通过查找embeding矩阵来得到词向量然后输入到模型的最底层。但是再ELMo模型中并不是这样:
- 第一步：我们首先使用字符嵌入(haracter embeddings)表示每个词。
- 第二步：然后将这个词表示输入到一个含有一定过滤器的CNN网络中后再经过一个最大池化层。
- 第三步：再经过2-layer highway network，再输入到模型
这样构建上下文无关的原始的词向量的好处：
- 使用字符向量可以让我们了解词级向量可能遗漏的词的形态特征。
- 使用字符向量确保了我们即使对于词汇表以外单词也能形成有效的表示，通过字符的拼接。
- 使用卷积层可以让我们获得构建更强大词向量的n-gram特征。
- highway network layers允许通过输入更平滑的信息。
训练好的ELMo然后为特定任务生成词embeding呢
上图的公式化： $ELMo_k^{task}=γ_k*(s_0^{task}*x_k+s_1^{task}*h_{1,k}+s_2^{task}*h_{2,k})$ 其中s是softmax-normalized 权重，r是特定于任务的缩放因子

ELMo不是对每个单词使用固定词向量，而是在为句子中的每个单词分配词向量之前查看整个句子的上下文信息，即根据句子的实际情况为词分配词向量。
ELMo生成的词向量与一般的上下文无关的固定的词向量之间的关系如下图：
注意下面的词向量是固定的而上面的词向量是ELMo模型根据整个句子动态生成的词向量，对于不同句子中stick的下面词向量是一样的，但是上面ELMo生成的词向量是不一样的。
一般语言模型任务(预测下一个词)如下：
在上面的语言模型训练完成之后，其embeding矩阵被使用到特殊任务当中去。
ELMo实际上更进一步，训练双向LSTM模型：
ELMo通过以某种方式将隐藏状态和初始词向量组合在一起来提出语境化的词向量，组合的方式是拼接再加权求和。
ELMo使用预先训练的语言模型来产生词向量，而不是依赖于映射表产生词向量。
ELMo使用字符级CNN来计算那些被输入到biLM第一层的原始词向量