Language Modeling with Gated Convolutional Networks ( GLU )理解

简介

门控线性单元(GLU)是卷积神经网络中的一种门控机制,与循环神经网络的门控循环单元(GRU)不同的的是更加进行梯度容易传播,不易造成梯度消失或者梯度爆炸。而且在计算时间上也大幅度减少。

GLU计算过程

卷积网络就是对输入进行卷积以获得H = f ∗ w,因此没有时间依赖性,这使得在句子的单个单词上更容易并行化。这个计算过程将根据多个先前单词来计算每个上下文。 与递归网络相比,上下文的大小是有限的,但可以表示足够大的上下文并且在实践中表现良好。

词时使用存储在词嵌入矩阵中的向量表示的,词汇表大小D|V|×m,|V|是词汇表达小,m是嵌入维度,模型的输入是单词序列是 W0,…, Wm, 由词嵌入E = [Dw0,… ,DwN]表示。 计算隐藏层h0,…, hL为:

原文:

Language Modeling with Gated Convolutional Networks ( GLU )理解图一为下侧GLU模型架构图
Language Modeling with Gated Convolutional Networks ( GLU )理解
Language Modeling with Gated Convolutional Networks ( GLU )理解
Language Modeling with Gated Convolutional Networks ( GLU )理解

在对输入进行卷积时,要注意hi不包含将来单词的信息。 这是通过移动卷积输入以防止内核看到未来的上下文来解决此问题。具体来说,作者使用k / 2个元素对序列的开头进行零填充,假设第一个输入元素是我们无法预测的,是序列标记的开始,其中k是卷积内核的宽度。

门控机制

门控机制控制信息在网络中流动的路径,并已被证明对递归神经网络很有用。LSTMs通过一个由输入和忘记门控制的独立单元实现长期记忆。这允许信息在可能的许多时间步长中畅通无阻地流动。没有这些门,信息很容易在每个时间步的转换中消失。相反,卷积网络不会遭受相同类型的梯度消失的影响,通过实验发现卷积网络不需要忘记门。

因此,门控线性单元仅具有输出门,该输出门允许网络控制应在层级结构中传播的信息。这种机制对语言建模很有用,因为它允许模型选择与哪些单词或特征相关的单词来预测下一个单词。