您的位置: 首页 > 文章 > 为什么ReLU在神经网络中是最普遍的**函数？

为什么ReLU在神经网络中是最普遍的**函数？

分类: 文章 • 2024-04-27 17:42:07

**函数通常需要3个属性：

1.非线性-这是**函数的关键属性。得益于该神经网络，可用于解决非线性问题。

2.连续可微–这意味着我们具有连续的一阶导数。这是实现基于梯度的优化方法的理想属性。可连续微分的**函数对于基于梯度的优化方法没有任何问题。

3.单调–它有助于神经网络更轻松地收敛为更精确的模型。

ReLU是非线性和单调的。但这不是连续可微的。其他**函数（如Sigmoid和tanh）具有这3个属性。那么，为什么ReLU如此受欢迎（以及为什么如此出色）？

要找到答案，只需将典型**函数的公式和形状进行比较即可：

为什么ReLU在神经网络中是最普遍的**函数？

更深入的了解可以使我们了解ReLU函数的优点：：

1.诸如sigmoid，tanh或softsign之类的**功能会遇到梯度消失的问题。这些曲线的两端均为“几乎水平”。曲线的这些部分的渐变值非常小或已消失。因此，网络拒绝进一步学习或学习速度非常慢。ReLU不受此影响。但是，它还有另一个问题-即将死去的ReLU问题。对于小于0的自变量，梯度消失。进入该状态的神经元停止响应输入或错误的变化（仅因为渐变为0，什么都没有变化）。该问题的解决方案是上面提到的ReLU修改（Noisy ReLU，Leaky ReLU，ELU）。
2.ReLU更快。仅仅是因为它们涉及到更简单的数学运算。它们不需要任何规范化和指数计算（例如Sigmoid或tanh**函数中所需的那些）。与其他**函数相比，基于ReLU的神经网络训练可以快6倍（参见http://www.cs.toronto.edu/~fritz）