GELU论文翻译

GELU论文翻译

基本是机器翻译,也进行了基本的人工矫正,凑活看吧
原论文:Bridging Nonlinearities and Stochastic Regularizers with Gaussian Error Linear Units

摘要
本文中我们提出了一种具有高性能的神经网络**函数 Gaussian Error Linear Units(GELU)。GELU非线性是随机过程的期望变换,随机应用同一或零映射,在尊重神经元值的同时结合 Dropout 和 ZoneOut 的直觉(intuitions)。这一联系表明了对非线性的一种新的概率理解。我们对RELU和ELU进行了经验评估,并发现所有任务的性能都有所改善。

1. 介绍
sigmoid函数曾经是神经网络中最流行的非线性**函数。尽管有一个概率解释,但由于缓慢和不准确的收敛,它已经失宠。相比之下,广泛使用的ReLU**通常表现出优越的收敛性,但却缺乏概率解释[8]。非线性和非线性都是单调增加的,从而为更大的输入产生更大的输出。它们的效用在于它们如何响应输入。

与此相反,一些神经网络的 regularization 策略对一个神经元的值起着不确定的作用。例如,Dropout 随机将神经元值设置为零,而 ZoneOut 随机为之前计算的神经元值提供预计算[10,5]。Dropout 可以作为一个随机零映射,而 ZoneOut 可以作为一个随机身份映射。ReLU是一个确定的零映射或标识映射,具体取决于输入值。但是,这种ReLU的决定论是有限的;Dropout 和 ZoneOut 的随机性可能允许分别具有随机宽度或随机深度的网络的 pseudo-ensemble[1],这导致性能的提高[3,11]。由于ReLUs缺乏随机性,而且由于上述的 regularizers 不考虑他们的输入,创新仍然是独特的。本文通过考虑一个依赖于输入值的随机过程,来弥合非线性与随机正则化之间的鸿沟。我们将随机过程封装成一个确定的**函数,我们称之为高斯误差线性单元(GELU)。在多个任务的实验中,我们发现GELU的**效果优于ReLU和elu的**效果。

2. GELUs and the Stochastic 0-I Map
我们首先描述了GELU构成的随机过程。我们称之为随机0-I图(soi图)。在进行阐述之前,我们先做一个激励性假设。首先,让我们在单位超球面(不在单位超球面内)的表面上均匀地初始化神经网络的每列权值WRnin×noutW \in \mathbb{R}^{n_{in}\times n_{out}},并使输入数据XRbatch_size×ninX\in\mathbb{R}^{batch\_size\times n_{in}}具有标准正态分布。因此,我们假设Z=XWZ=XW,那么ZijZ_{ij}来自标准正态分布。现在,我们已经看到sigmoid和ReLU都为更大的输入分配了更大的值;我们希望有一个随机过程,它趋向于这样做。因此,我们将SOI映射定义为随机地将单位映射应用于概率为Φ(Zij)=P(YZij),YN(0,1)\Phi(Z_{ij})=P(Y\le Z_{ij}),Y\sim N(0,1)的输入,否则应用零映射。这引入了不确定性,但保持了对输入值的依赖性。
GELU论文翻译
我们可以从这个过程中恢复一个确定性函数,从而得到一个传统的非线性。输入x的预期转换为Φ(x)×Ix+(1Φ(x))×0x=xΦ(x)\Phi(x)\times Ix+(1-\Phi(x))\times 0x=x\Phi(x)。我们现在做一个概括。由于累积分布函数是用误差函数计算的,因此我们将高斯误差线性单位(GELU)定义为
GELU(x)=xFX(x)=xP(Xx)GELU(x)=xF_{X}(x)=xP(X\le x)
式中xN(μσ2x\sim N(\mu,\sigma^{2})μ\muσ\sigma都可能是优化的参数,但在本文中我们简单地让μ\mu=0和σ\sigma=1。
GELU与ReLU和ELU相象(见[2]了解ELU的描述)。例如,当σ0\sigma\rightarrow 0μ=0\mu=0时,GELU变为ReLU。更重要的是,ReLU和GELU渐近相等。与ReLU不同,GELU和ELU既可以是负的,也可以是正的。实际上,如果我们使用标准柯西分布的累积分布函数,那么,ELU(当α=1Π\alpha=\frac{1}{\Pi}ELU(x)=1(x>0)x+1Π1(x0)(ex1)ELU(x)=\mathbb{1}(x>0)x+\frac{1}{\Pi}\mathbb{1}(x\le 0)(e^{x}−1),其中1\mathbb{1}是指标函数)是xFC(x), CCauchy(0,1)xF_{C}(x),\ C\sim Cauchy(0,1)渐进的。这些是与先前非线性的一些基本关系。

然而,GELU有几个显著的不同之处。这种非凸、非单调的函数在正域中不是线性的,并且在所有点上都有曲率。同时,ReLUs和ELUs在正域中是线性的,它们是凸的和单调的**,并不总是呈现出曲率。增加曲率和非单调性可能使ReLUs比ReLUS或ELUS更容易近似复杂的函数。此外,值得注意的是,考虑到这是期望的SOI图,GELU有一个概率解释。
GELU论文翻译
3. 实验
我们在MNIST分类(灰度图像10个等级,60K训练示例和10k测试示例)、MNIST自动编码和CIFER-10(彩色图像10个等级,50K训练示例和10k测试示例)任务中评估GELU、ReLU和ELU。我们不评估LReLU,因为它与ReLUS相似(见[6]了解LReLU的描述)。
3.1 MNIST Classification
让我们验证这种非线性是否比先前的**函数有效果。我们用GELUs(μ\mu=0,σ\sigma=1)、RELUS和ELUS(KaTeX parse error: Expected 'EOF', got '\alphs' at position 1: \̲a̲l̲p̲h̲s̲=1)训练全连接网络。每7层,128个神经元宽度的神经网络训练50个周期,batch-size为128。我们使用Adam优化器,其建议学习率为0.001[4]。由于我们在前一节中的论证,权重在单位超球面上被统一初始化;这对每个非线性的性能都有积极的影响[7,9]。图2显示,GELU的训练日志损失中位数最低。
3.2 MNIST Autoencoder
我们现在移动到一个自我监督的设置,并在MNIST上训练一个深度自动编码器。为了解决这个问题,我们使用了一个宽度为1000、500、250、30、250、500、1000层的网络。我们再次使用Adam优化器,batch-size为64。我们的损失是均方损失。我们将学习率从10310^{-3}改为105.110^{-5.1}。结果如图3所示。GELUs要么与其它非线性项结合,要么显著优于其它非线性项。这表明在不同的学习速率下,GELUs非线性既稳定又准确。
GELU论文翻译
3.3 CIFER-10
接下来,我们证明对于更复杂的Dropout结构,GELU再次优于其他非线性函数。我们使用具有栈(2×3×32)卷积结构,(2×3×64)分别表示层数、接收字段和滤波器数目。然后,我们通过一个两层网络输入这个输出,两层网络有512和256个神经元。我们在每个堆栈后应用 max-pooling,并运行了两个实验:要么不应用Dropout,要么以这种方式使用Dropout:第一个栈后Dropout-rate为0.25,第二个栈后为0.25,最后一个全连接层前为0.5。和以往一样,我们使用学习率为0.001的Adam优化器,并在单位超球体上初始化权重(每个过滤器都有一个l2l_{2}范数)。图4显示了结果。在这两种情况下,GELUs提供更快和更好的收敛。因此,尽管GELUs是由一个不同的随机过程所激发的,但它与Dropout的表现很好。

4. 讨论
GELU论文翻译
在几次实验中,GELU的性能优于以前的非线性函数,但也有一些需要注意的地方。MNIST实验类似于由ELU的架构运行的实验,但与他们的实验不同,我们使用Adam而不是普通的梯度下降,因为Adam更好地反映了训练神经网络的实际应用。有趣的是,这种变化导致ELUS的表现有时比ReLUS差。此外,通过GELU在凸性和单调性上的差异,我们发现具有动量的优化器对于允许GELUs很好地收敛是非常重要的,而以前的非线性并没有这个(小)缺点。这表明GELUs产生了一个错误表面,而不是由ReLUs产生的。此外,与exp()exp(\cdot)σ()\sigma(\cdot)一样,对于较高的精确率而言,误差函数的计算代价很高,但存在快速的近似值。同样值得一提的是,在上述实验中,我们没有显示SOI图的性能。我们现在在图5中展示了它的一个这样的性能示例。显然,它有时可以取代非线性。例如,在MNIST分类任务中,它优于ELU非线性——只有正则化过程的神经网络可以优于具有非线性的网络。由于正则化的随机性,它实现了低验证日志丢失。然而,目前还不清楚如何调整SOI图的规则化程度,因此我们还不能建议将SOI图用作非线性替换。

5. 结论
我们观察到,在几个任务中,GELU优于以前的非线性。重要的是,对于未来的工作,这种非线性具有概率解释,因此可能导致对整个前馈过程的更深理解。其他未来的研究途径包括研究LaLU,xFL(x)xF_{L}(x)LLaplace(0,1)L\sim Laplace(0,1),因为这可能会鼓励神经元冗余。另一种方法是找到一种在许多不同任务中应用SOI映射的有用方法,因为目前尚不清楚如何最好地修改SOI映射的规范化程度。幸运的是,GELU不需要任何明显的调整来超过先前非线性的精度。
GELU论文翻译


参考文献

[1] Philip Bachman, Ouais Alsharif, and Doina Precup. Learning with pseudo-ensembles. In Advances in Neural Information Processing Systems, pages 3365-3373, 2014.
[2] Djork-ArneClevert, ThomasUnterthiner, SeppHochreiter. Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs). In International Conference on Learning Representations, 2016.
[3] Gao Huang, Yu Sun, Zhuang Liu, Daniel Sedra, Kilian Weinberger. Deep Networks with Stochastic Depth. In arXiv:1603.09382.
[4] Diederik P. Kingma and Jimmy Lei Ba… Adam: A Method for Stochastic Optimization. In International Conference on Learning Representations, 2015.
[5] David Krueger, Tegan Maharaj, Jnos Kramr, Mohammad Pezeshki, Nicolas Ballas, Nan Rosemary Ke1, Anirudh Goyal, Yoshua Bengio, Hugo Larochelle, Aaron Courville, and Chris Pal. Zoneout: Regularizing RNNs by Randomly Preserving Hidden Activations. In arXiv:1606.01305.
[6] Andrew L. Maas, Awni Y. Hannun, and Andrew Y. Ng. Rectifier nonlinearities improve neural network acoustic models. In International Conference on Machine Learning, 2013.
[7] Dmytro Mishkin and Jiri Matas. All You Need Is a Good Init. In International Conference on Learning Representations, 2016.
[8] Vinod Nair and Geoffrey E. Hinton. Rectified Linear Units Improve Restricted Boltzmann Machines. In International Conference on Machine Learning, 2010.
[9] Andrew M. Saxe, James L. McClelland, and Surya Ganguli. Exact solutions to the nonlinear dynamics of learning in deep linear neural networks. In International Conference on Learning Representations, 2014.
[10] Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhut- dinov. Dropout: A Simple Way to Prevent Neural Networks from Overfitting. In Journal of Machine Learning Research, 2014.
[11] Andreas Veit, Michael Wilber, and Serge Belongie. Residual Networks are Exponential Ensembles of Relatively Shallow Networks. In arXiv:1605.06431.