GELU论文翻译

基本是机器翻译，也进行了基本的人工矫正，凑活看吧
原论文：Bridging Nonlinearities and Stochastic Regularizers with Gaussian Error Linear Units

摘要
本文中我们提出了一种具有高性能的神经网络**函数 Gaussian Error Linear Units（GELU）。GELU非线性是随机过程的期望变换，随机应用同一或零映射，在尊重神经元值的同时结合 Dropout 和 ZoneOut 的直觉（intuitions）。这一联系表明了对非线性的一种新的概率理解。我们对RELU和ELU进行了经验评估，并发现所有任务的性能都有所改善。

1. 介绍
sigmoid函数曾经是神经网络中最流行的非线性**函数。尽管有一个概率解释，但由于缓慢和不准确的收敛，它已经失宠。相比之下，广泛使用的ReLU**通常表现出优越的收敛性，但却缺乏概率解释[8]。非线性和非线性都是单调增加的，从而为更大的输入产生更大的输出。它们的效用在于它们如何响应输入。

与此相反，一些神经网络的 regularization 策略对一个神经元的值起着不确定的作用。例如，Dropout 随机将神经元值设置为零，而 ZoneOut 随机为之前计算的神经元值提供预计算[10，5]。Dropout 可以作为一个随机零映射，而 ZoneOut 可以作为一个随机身份映射。ReLU是一个确定的零映射或标识映射，具体取决于输入值。但是，这种ReLU的决定论是有限的；Dropout 和 ZoneOut 的随机性可能允许分别具有随机宽度或随机深度的网络的 pseudo-ensemble[1]，这导致性能的提高[3，11]。由于ReLUs缺乏随机性，而且由于上述的 regularizers 不考虑他们的输入，创新仍然是独特的。本文通过考虑一个依赖于输入值的随机过程，来弥合非线性与随机正则化之间的鸿沟。我们将随机过程封装成一个确定的**函数，我们称之为高斯误差线性单元（GELU）。在多个任务的实验中，我们发现GELU的**效果优于ReLU和elu的**效果。

2. GELUs and the Stochastic 0-I Map
我们首先描述了GELU构成的随机过程。我们称之为随机0-I图（soi图）。在进行阐述之前，我们先做一个激励性假设。首先，让我们在单位超球面（不在单位超球面内）的表面上均匀地初始化神经网络的每列权值 $W \in \mathbb{R}^{n_{in}\times n_{out}}$ ，并使输入数据 $X\in\mathbb{R}^{batch\_size\times n_{in}}$ 具有标准正态分布。因此，我们假设 $Z=XW$ ，那么 $Z_{ij}$ 来自标准正态分布。现在，我们已经看到sigmoid和ReLU都为更大的输入分配了更大的值；我们希望有一个随机过程，它趋向于这样做。因此，我们将SOI映射定义为随机地将单位映射应用于概率为 $\Phi(Z_{ij})=P(Y\le Z_{ij}),Y\sim N(0,1)$ 的输入，否则应用零映射。这引入了不确定性，但保持了对输入值的依赖性。
GELU论文翻译
我们可以从这个过程中恢复一个确定性函数，从而得到一个传统的非线性。输入x的预期转换为 $\Phi(x)\times Ix+(1-\Phi(x))\times 0x=x\Phi(x)$ 。我们现在做一个概括。由于累积分布函数是用误差函数计算的，因此我们将高斯误差线性单位（GELU）定义为
$GELU(x)=xF_{X}(x)=xP(X\le x)$
式中 $x\sim N(\mu，\sigma^{2}）$ 。 $\mu$ 和 $\sigma$ 都可能是优化的参数，但在本文中我们简单地让 $\mu$ =0和 $\sigma$ =1。
GELU与ReLU和ELU相象（见[2]了解ELU的描述）。例如，当 $\sigma\rightarrow 0$ 且 $\mu=0$ 时，GELU变为ReLU。更重要的是，ReLU和GELU渐近相等。与ReLU不同，GELU和ELU既可以是负的，也可以是正的。实际上，如果我们使用标准柯西分布的累积分布函数，那么，ELU（当 $\alpha=\frac{1}{\Pi}$ 或 $ELU(x)=\mathbb{1}(x>0)x+\frac{1}{\Pi}\mathbb{1}(x\le 0)(e^{x}−1)$ ，其中 $\mathbb{1}$ 是指标函数）是 $xF_{C}(x),\ C\sim Cauchy(0,1)$ 渐进的。这些是与先前非线性的一些基本关系。

然而，GELU有几个显著的不同之处。这种非凸、非单调的函数在正域中不是线性的，并且在所有点上都有曲率。同时，ReLUs和ELUs在正域中是线性的，它们是凸的和单调的**，并不总是呈现出曲率。增加曲率和非单调性可能使ReLUs比ReLUS或ELUS更容易近似复杂的函数。此外，值得注意的是，考虑到这是期望的SOI图，GELU有一个概率解释。
GELU论文翻译
3. 实验
我们在MNIST分类（灰度图像10个等级，60K训练示例和10k测试示例）、MNIST自动编码和CIFER-10（彩色图像10个等级，50K训练示例和10k测试示例）任务中评估GELU、ReLU和ELU。我们不评估LReLU，因为它与ReLUS相似（见[6]了解LReLU的描述）。
3.1 MNIST Classification
让我们验证这种非线性是否比先前的**函数有效果。我们用GELUs（ $\mu$ =0， $\sigma$ =1）、RELUS和ELUS（KaTeX parse error: Expected 'EOF', got '\alphs' at position 1: \̲a̲l̲p̲h̲s̲=1）训练全连接网络。每7层，128个神经元宽度的神经网络训练50个周期，batch-size为128。我们使用Adam优化器，其建议学习率为0.001[4]。由于我们在前一节中的论证，权重在单位超球面上被统一初始化；这对每个非线性的性能都有积极的影响[7，9]。图2显示，GELU的训练日志损失中位数最低。
3.2 MNIST Autoencoder
我们现在移动到一个自我监督的设置，并在MNIST上训练一个深度自动编码器。为了解决这个问题，我们使用了一个宽度为1000、500、250、30、250、500、1000层的网络。我们再次使用Adam优化器，batch-size为64。我们的损失是均方损失。我们将学习率从 $10^{-3}$ 改为 $10^{-5.1}$ 。结果如图3所示。GELUs要么与其它非线性项结合，要么显著优于其它非线性项。这表明在不同的学习速率下，GELUs非线性既稳定又准确。
GELU论文翻译
3.3 CIFER-10
接下来，我们证明对于更复杂的Dropout结构，GELU再次优于其他非线性函数。我们使用具有栈（2×3×32）卷积结构，（2×3×64）分别表示层数、接收字段和滤波器数目。然后，我们通过一个两层网络输入这个输出，两层网络有512和256个神经元。我们在每个堆栈后应用 max-pooling，并运行了两个实验：要么不应用Dropout，要么以这种方式使用Dropout：第一个栈后Dropout-rate为0.25，第二个栈后为0.25，最后一个全连接层前为0.5。和以往一样，我们使用学习率为0.001的Adam优化器，并在单位超球体上初始化权重（每个过滤器都有一个 $l_{2}$ 范数）。图4显示了结果。在这两种情况下，GELUs提供更快和更好的收敛。因此，尽管GELUs是由一个不同的随机过程所激发的，但它与Dropout的表现很好。

4. 讨论
GELU论文翻译
在几次实验中，GELU的性能优于以前的非线性函数，但也有一些需要注意的地方。MNIST实验类似于由ELU的架构运行的实验，但与他们的实验不同，我们使用Adam而不是普通的梯度下降，因为Adam更好地反映了训练神经网络的实际应用。有趣的是，这种变化导致ELUS的表现有时比ReLUS差。此外，通过GELU在凸性和单调性上的差异，我们发现具有动量的优化器对于允许GELUs很好地收敛是非常重要的，而以前的非线性并没有这个（小）缺点。这表明GELUs产生了一个错误表面，而不是由ReLUs产生的。此外，与 $exp(\cdot)$ 和 $\sigma(\cdot)$ 一样，对于较高的精确率而言，误差函数的计算代价很高，但存在快速的近似值。同样值得一提的是，在上述实验中，我们没有显示SOI图的性能。我们现在在图5中展示了它的一个这样的性能示例。显然，它有时可以取代非线性。例如，在MNIST分类任务中，它优于ELU非线性——只有正则化过程的神经网络可以优于具有非线性的网络。由于正则化的随机性，它实现了低验证日志丢失。然而，目前还不清楚如何调整SOI图的规则化程度，因此我们还不能建议将SOI图用作非线性替换。

5. 结论
我们观察到，在几个任务中，GELU优于以前的非线性。重要的是，对于未来的工作，这种非线性具有概率解释，因此可能导致对整个前馈过程的更深理解。其他未来的研究途径包括研究LaLU， $xF_{L}(x)$ ， $L\sim Laplace(0,1)$ ，因为这可能会鼓励神经元冗余。另一种方法是找到一种在许多不同任务中应用SOI映射的有用方法，因为目前尚不清楚如何最好地修改SOI映射的规范化程度。幸运的是，GELU不需要任何明显的调整来超过先前非线性的精度。
GELU论文翻译

参考文献

[1] Philip Bachman, Ouais Alsharif, and Doina Precup. Learning with pseudo-ensembles. In Advances in Neural Information Processing Systems, pages 3365-3373, 2014.
[2] Djork-ArneClevert, ThomasUnterthiner, SeppHochreiter. Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs). In International Conference on Learning Representations, 2016.
[3] Gao Huang, Yu Sun, Zhuang Liu, Daniel Sedra, Kilian Weinberger. Deep Networks with Stochastic Depth. In arXiv:1603.09382.
[4] Diederik P. Kingma and Jimmy Lei Ba… Adam: A Method for Stochastic Optimization. In International Conference on Learning Representations, 2015.
[5] David Krueger, Tegan Maharaj, Jnos Kramr, Mohammad Pezeshki, Nicolas Ballas, Nan Rosemary Ke1, Anirudh Goyal, Yoshua Bengio, Hugo Larochelle, Aaron Courville, and Chris Pal. Zoneout: Regularizing RNNs by Randomly Preserving Hidden Activations. In arXiv:1606.01305.
[6] Andrew L. Maas, Awni Y. Hannun, and Andrew Y. Ng. Rectifier nonlinearities improve neural network acoustic models. In International Conference on Machine Learning, 2013.
[7] Dmytro Mishkin and Jiri Matas. All You Need Is a Good Init. In International Conference on Learning Representations, 2016.
[8] Vinod Nair and Geoffrey E. Hinton. Rectified Linear Units Improve Restricted Boltzmann Machines. In International Conference on Machine Learning, 2010.
[9] Andrew M. Saxe, James L. McClelland, and Surya Ganguli. Exact solutions to the nonlinear dynamics of learning in deep linear neural networks. In International Conference on Learning Representations, 2014.
[10] Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhut- dinov. Dropout: A Simple Way to Prevent Neural Networks from Overfitting. In Journal of Machine Learning Research, 2014.
[11] Andreas Veit, Michael Wilber, and Serge Belongie. Residual Networks are Exponential Ensembles of Relatively Shallow Networks. In arXiv:1605.06431.

GELU论文翻译

GELU论文翻译

相关推荐