动手学深度学习_4

1循环神经网络

1.1 GRU

RNN存在的问题:梯度较容易出现衰减或爆炸(BPTT)
动手学深度学习_4
Ht=ϕ(XtWxh+Ht1Whh+bh) H_{t} = ϕ(X_{t}W_{xh} + H_{t-1}W_{hh} + b_{h})
GRU:

动手学深度学习_4

Rt=σ(XtWxr+Ht1Whr+br)Zt=σ(XtWxz+Ht1Whz+bz)H~t=tanh(XtWxh+(RtHt1)Whh+bh)Ht=ZtHt1+(1Zt)H~t R_{t} = σ(X_tW_{xr} + H_{t−1}W_{hr} + b_r)\\ Z_{t} = σ(X_tW_{xz} + H_{t−1}W_{hz} + b_z)\\ \widetilde{H}_t = tanh(X_tW_{xh} + (R_t ⊙H_{t−1})W_{hh} + b_h)\\ H_t = Z_t⊙H_{t−1} + (1−Z_t)⊙\widetilde{H}_t
• 重置⻔有助于捕捉时间序列⾥短期的依赖关系;
• 更新⻔有助于捕捉时间序列⾥⻓期的依赖关系。

1.导入包与加载数据
动手学深度学习_4
2. 参数初始化
动手学深度学习_4

  1. GRU 模型

动手学深度学习_4

  1. 训练
    动手学深度学习_4

1.2 LSTM

** 长短期记忆long short-term memory **:
遗忘门:控制上一时间步的记忆细胞
输入门:控制当前时间步的输入
输出门:控制从记忆细胞到隐藏状态
记忆细胞:⼀种特殊的隐藏状态的信息的流动
动手学深度学习_4

It=σ(XtWxi+Ht1Whi+bi)Ft=σ(XtWxf+Ht1Whf+bf)Ot=σ(XtWxo+Ht1Who+bo)C~t=tanh(XtWxc+Ht1Whc+bc)Ct=FtCt1+ItC~tHt=Ottanh(Ct) I_t = σ(X_tW_{xi} + H_{t−1}W_{hi} + b_i) \\ F_t = σ(X_tW_{xf} + H_{t−1}W_{hf} + b_f)\\ O_t = σ(X_tW_{xo} + H_{t−1}W_{ho} + b_o)\\ \widetilde{C}_t = tanh(X_tW_{xc} + H_{t−1}W_{hc} + b_c)\\ C_t = F_t ⊙C_{t−1} + I_t ⊙\widetilde{C}_t\\ H_t = O_t⊙tanh(C_t)

初始化参数与设置LSTM模型
动手学深度学习_4

1.3 深层RNN

深度循环神经网络

动手学深度学习_4

Ht(1)=ϕ(XtWxh(1)+Ht1(1)Whh(1)+bh(1))Ht()=ϕ(Ht(1)Wxh()+Ht1()Whh()+bh())Ot=Ht(L)Whq+bq \boldsymbol{H}_t^{(1)} = \phi(\boldsymbol{X}_t \boldsymbol{W}_{xh}^{(1)} + \boldsymbol{H}_{t-1}^{(1)} \boldsymbol{W}_{hh}^{(1)} + \boldsymbol{b}_h^{(1)})\\ \boldsymbol{H}_t^{(\ell)} = \phi(\boldsymbol{H}_t^{(\ell-1)} \boldsymbol{W}_{xh}^{(\ell)} + \boldsymbol{H}_{t-1}^{(\ell)} \boldsymbol{W}_{hh}^{(\ell)} + \boldsymbol{b}_h^{(\ell)})\\ \boldsymbol{O}_t = \boldsymbol{H}_t^{(L)} \boldsymbol{W}_{hq} + \boldsymbol{b}_q
动手学深度学习_4

1.4 双向RNN

双向循环神经网络

动手学深度学习_4
Ht=ϕ(XtWxh(f)+Ht1Whh(f)+bh(f))Ht=ϕ(XtWxh(b)+Ht+1Whh(b)+bh(b)) \begin{aligned} \overrightarrow{\boldsymbol{H}}_t &= \phi(\boldsymbol{X}_t \boldsymbol{W}_{xh}^{(f)} + \overrightarrow{\boldsymbol{H}}_{t-1} \boldsymbol{W}_{hh}^{(f)} + \boldsymbol{b}_h^{(f)})\\ \overleftarrow{\boldsymbol{H}}_t &= \phi(\boldsymbol{X}_t \boldsymbol{W}_{xh}^{(b)} + \overleftarrow{\boldsymbol{H}}_{t+1} \boldsymbol{W}_{hh}^{(b)} + \boldsymbol{b}_h^{(b)}) \end{aligned}
Ht=(Ht,Ht) \boldsymbol{H}_t=(\overrightarrow{\boldsymbol{H}}_{t}, \overleftarrow{\boldsymbol{H}}_t)
Ot=HtWhq+bq \boldsymbol{O}_t = \boldsymbol{H}_t \boldsymbol{W}_{hq} + \boldsymbol{b}_q
动手学深度学习_4

2 机器翻译

机器翻译(MT):将一段文本从一种语言自动翻译为另一种语言,用神经网络解决这个问题通常称为神经机器翻译(NMT)。 主要特征:输出是单词序列而不是单个单词。 输出序列的长度可能与源序列的长度不同。
encoder-decoder 模型内部可以为rnn,lstm,gru等单语。
动手学深度学习_4
动手学深度学习_4
输出层如果穷举所有的词,运算量过大。如果输出长度为5 词表大小为10000。那计算量就是10000**5。因此有了贪婪搜索。每次选取概率值最大的。但是容易出现局部最优。因此有了柱搜索。每次搜索概率最大的几个词,然后进行组合。找到组合概率最大的一个句子。
动手学深度学习_4

3 注意力机制与Seq2seq模型

3.1注意力机制

在“编码器—解码器(seq2seq)”⼀节⾥,解码器在各个时间步依赖相同的背景变量(context vector)来获取输⼊序列信息。当编码器为循环神经⽹络时,背景变量来⾃它最终时间步的隐藏状态。将源序列输入信息以循环单位状态编码,然后将其传递给解码器以生成目标序列。然而这种结构存在着问题,尤其是RNN机制实际中存在长程梯度消失的问题,对于较长的句子,我们很难寄希望于将输入的序列转化为定长的向量而保存所有的有效信息,所以随着所需翻译句子的长度的增加,这种结构的效果会显著下降。

与此同时,解码的目标词语可能只与原输入的部分词语有关,而并不是与所有的输入有关。例如,当把“Hello world”翻译成“Bonjour le monde”时,“Hello”映射成“Bonjour”,“world”映射成“monde”。在seq2seq模型中,解码器只能隐式地从编码器的最终状态中选择相应的信息。然而,注意力机制可以将这种选择过程显式地建模。
动手学深度学习_4

3.2 注意力机制框架

Attention 是一种通用的带权池化方法,输入由两部分构成:询问(query)和键值对(key-value pairs)。????_????∈ℝ^{????_????}, ????_????∈ℝ^{????_????}. Query ????∈ℝ^{????_????}, attention layer得到输出与value的维度一致 ????∈ℝ^{????_????}. 对于一个query来说,attention layer 会与每一个key计算注意力分数并进行权重的归一化,输出的向量oo则是value的加权求和,而每个key计算的权重与value一一对应。

为了计算输出,我们首先假设有一个函数α\alpha 用于计算query和key的相似性,然后可以计算所有的 attention scores a1,,ana_1, \ldots, a_n by

ai=α(q,ki). a_i = \alpha(\mathbf q, \mathbf k_i).

我们使用 softmax函数 获得注意力权重:

b1,,bn=softmax(a1,,an). b_1, \ldots, b_n = \textrm{softmax}(a_1, \ldots, a_n).

最终的输出就是value的加权求和:

o=i=1nbivi. \mathbf o = \sum_{i=1}^n b_i \mathbf v_i.

动手学深度学习_4

不同的attetion layer的区别在于score函数的选择,在本节的其余部分,我们将讨论两个常用的注意层 Dot-product Attention 和 Multilayer Perceptron Attention;随后我们将实现一个引入attention的seq2seq模型并在英法翻译语料上进行训练与测试。

3.3 点积注意力

The dot product 假设query和keys有相同的维度, 即 $\forall i, ????,????_???? ∈ ℝ_???? $. 通过计算query和key转置的乘积来计算attention score,通常还会除去 d\sqrt{d} 减少计算出来的score对维度????的依赖性,如下

动手学深度学习_4

假设 $ ????∈ℝ^{????×????}$ 有 m个query,????∈ℝ^{????×????} 有 nn 个keys. 我们可以通过矩阵运算的方式计算所有 mnmn 个score:

动手学深度学习_4

现在让我们实现这个层,它支持一批查询和键值对。此外,它支持作为正则化随机删除一些注意力权重.

3.4 引入注意力机制的Seq2seq模型

本节中将注意机制添加到sequence to sequence 模型中,以显式地使用权重聚合states。下图展示encoding 和decoding的模型结构,在时间步为t的时候。此刻attention layer保存着encodering看到的所有信息——即encoding的每一步输出。在decoding阶段,解码器的tt时刻的隐藏状态被当作query,encoder的每个时间步的hidden states作为key和value进行attention聚合. Attetion model的输出当作成上下文信息context vector,并与解码器输入DtD_t拼接起来一起送到解码器:

动手学深度学习_4

Fig1seqtoseq Fig1具有注意机制的seq-to-seq模型解码的第二步

下图展示了seq2seq机制的所以层的关系,下面展示了encoder和decoder的layer结构

动手学深度学习_4

Fig2seqtoseq Fig2具有注意机制的seq-to-seq模型中层结构
动手学深度学习_4

4 Transformer

在之前的章节中,我们已经介绍了主流的神经网络架构如卷积神经网络(CNNs)和循环神经网络(RNNs)。让我们进行一些回顾:

  • CNNs 易于并行化,却不适合捕捉变长序列内的依赖关系。
  • RNNs 适合捕捉长距离变长序列的依赖,但是却难以实现并行化处理序列。

为了整合CNN和RNN的优势,[Vaswani et al., 2017] 创新性地使用注意力机制设计了Transformer模型。该模型利用attention机制实现了并行化捕捉序列依赖,并且同时处理序列的每个位置的tokens,上述优势使得Transformer模型在性能优异的同时大大减少了训练时间。

图10.3.1展示了Transformer模型的架构,与9.7节的seq2seq模型相似,Transformer同样基于编码器-解码器架构,其区别主要在于以下三点:

  1. Transformer blocks:将seq2seq模型重的循环网络替换为了Transformer Blocks,该模块包含一个多头注意力层(Multi-head Attention Layers)以及两个position-wise feed-forward networks(FFN)。对于解码器来说,另一个多头注意力层被用于接受编码器的隐藏状态。
  2. Add and norm:多头注意力层和前馈网络的输出被送到两个“add and norm”层进行处理,该层包含残差结构以及层归一化。
  3. Position encoding:由于自注意力层并没有区分元素的顺序,所以一个位置编码层被用于向序列元素里添加位置信息。

动手学深度学习_4

Transformer. Transformer 架构.

在接下来的部分,我们将会带领大家实现Transformer里全新的子结构,并且构建一个神经机器翻译模型用以训练和测试。

4.1多头注意力层

在我们讨论多头注意力层之前,先来迅速理解以下自注意力(self-attention)的结构。自注意力模型是一个正规的注意力模型,序列的每一个元素对应的key,value,query是完全一致的。如图10.3.2 自注意力输出了一个与输入长度相同的表征序列,与循环神经网络相比,自注意力对每个元素输出的计算是并行的,所以我们可以高效的实现这个模块。

动手学深度学习_4

自注意力结构

多头注意力层包含hh个并行的自注意力层,每一个这种层被成为一个head。对每个头来说,在进行注意力计算之前,我们会将query、key和value用三个现行层进行映射,这hh个注意力头的输出将会被拼接之后输入最后一个线性层进行整合。

动手学深度学习_4

多头注意力

假设query,key和value的维度分别是dqd_qdkd_kdvd_v。那么对于每一个头i=1,,hi=1,\ldots,h,我们可以训练相应的模型权重Wq(i)Rpq×dqW_q^{(i)} \in \mathbb{R}^{p_q\times d_q}Wk(i)Rpk×dkW_k^{(i)} \in \mathbb{R}^{p_k\times d_k}Wv(i)Rpv×dvW_v^{(i)} \in \mathbb{R}^{p_v\times d_v},以得到每个头的输出:

o(i)=attention(Wq(i)q,Wk(i)k,Wv(i)v) o^{(i)} = attention(W_q^{(i)}q, W_k^{(i)}k, W_v^{(i)}v)

这里的attention可以是任意的attention function,比如前一节介绍的dot-product attention以及MLP attention。之后我们将所有head对应的输出拼接起来,送入最后一个线性层进行整合,这个层的权重可以表示为WoRd0×hpvW_o\in \mathbb{R}^{d_0 \times hp_v}

o=Wo[o(1),,o(h)] o = W_o[o^{(1)}, \ldots, o^{(h)}]

接下来我们就可以来实现多头注意力了,假设我们有h个头,隐藏层权重 hidden_size=pq=pk=pvhidden\_size = p_q = p_k = p_v 与query,key,value的维度一致。除此之外,因为多头注意力层保持输入与输出张量的维度不变,所以输出feature的维度也设置为 d0=hidden_sized_0 = hidden\_size

4.2 位置编码

与循环神经网络不同,无论是多头注意力网络还是前馈神经网络都是独立地对每个位置的元素进行更新,这种特性帮助我们实现了高效的并行,却丢失了重要的序列顺序的信息。为了更好的捕捉序列信息,Transformer模型引入了位置编码去保持输入序列元素的位置。

假设输入序列的嵌入表示 XRl×dX\in \mathbb{R}^{l\times d}, 序列长度为ll嵌入向量维度为dd,则其位置编码为PRl×dP \in \mathbb{R}^{l\times d} ,输出的向量就是二者相加 X+PX + P

位置编码是一个二维的矩阵,i对应着序列中的顺序,j对应其embedding vector内部的维度索引。我们可以通过以下等式计算位置编码:

Pi,2j=sin(i/100002j/d) P_{i,2j} = sin(i/10000^{2j/d})

Pi,2j+1=cos(i/100002j/d) P_{i,2j+1} = cos(i/10000^{2j/d})

for i=0,,l1 and j=0,,(d1)/2 for\ i=0,\ldots, l-1\ and\ j=0,\ldots,\lfloor (d-1)/2 \rfloor

动手学深度学习_4

位置编码

4.3 解码器

Transformer 模型的解码器与编码器结构类似,然而,除了之前介绍的几个模块之外,编码器部分有另一个子模块。该模块也是多头注意力层,接受编码器的输出作为key和value,decoder的状态作为query。与编码器部分相类似,解码器同样是使用了add and norm机制,用残差和层归一化将各个子层的输出相连。

仔细来讲,在第t个时间步,当前输入xtx_t是query,那么self attention接受了第t步以及前t-1步的所有输入x1,,xt1x_1,\ldots, x_{t-1}。在训练时,由于第t位置的输入可以观测到全部的序列,这与预测阶段的情形项矛盾,所以我们要通过将第t个时间步所对应的可观测长度设置为t,以消除不需要看到的未来的信息。

动手学深度学习_4

参考:https://github.com/ShusenTang/Dive-into-DL-PyTorch/