为什么ReLU在神经网络中是最普遍的**函数?

**函数通常需要3个属性:

1.非线性-这是**函数的关键属性。 得益于该神经网络,可用于解决非线性问题。

2.连续可微–这意味着我们具有连续的一阶导数。 这是实现基于梯度的优化方法的理想属性。 可连续微分的**函数对于基于梯度的优化方法没有任何问题。

3.单调–它有助于神经网络更轻松地收敛为更精确的模型。

 

ReLU是非线性和单调的。 但这不是连续可微的。 其他**函数(如Sigmoid和tanh)具有这3个属性。 那么,为什么ReLU如此受欢迎(以及为什么如此出色)?

要找到答案,只需将典型**函数的公式和形状进行比较即可:

为什么ReLU在神经网络中是最普遍的**函数?

更深入的了解可以使我们了解ReLU函数的优点::

1.诸如sigmoid,tanh或softsign之类的**功能会遇到梯度消失的问题。这些曲线的两端均为“几乎水平”。曲线的这些部分的渐变值非常小或已消失。因此,网络拒绝进一步学习或学习速度非常慢。ReLU不受此影响。但是,它还有另一个问题-即将死去的ReLU问题。对于小于0的自变量,梯度消失。进入该状态的神经元停止响应输入或错误的变化(仅因为渐变为0,什么都没有变化)。该问题的解决方案是上面提到的ReLU修改(Noisy ReLU,Leaky ReLU,ELU)。
2.ReLU更快。仅仅是因为它们涉及到更简单的数学运算。它们不需要任何规范化和指数计算(例如Sigmoid或tanh**函数中所需的那些)。与其他**函数相比,基于ReLU的神经网络训练可以快6倍(参见http://www.cs.toronto.edu/~fritz