Relu**函数及其变种

神经网络中使用**函数来加入非线性因素,提高模型的抽象表达能力。ReLU(Rectified Linear Unit,修正线性单元)
ReLU公式近似推导::
Relu**函数及其变种
下面解释上述公式中的softplus,Noisy ReLU.
softplus函数与ReLU函数接近,但比较平滑, 同ReLU一样是单边抑制,有宽广的接受域(0,+inf), 但是由于指数运算,对数运算计算量大的原因,而不太被人使用.并且从一些人的使用经验来看,效果也并不比ReLU好.softplus的导数恰好是sigmoid函数。
Relu**函数及其变种
其他relu变种:
1.Noisy ReLU
ReLU可以被扩展以包括高斯噪声(Gaussian noise):
f(x)=max(0,x+Y),Y∼N(0,σ(x))
Noisy ReLU 在受限玻尔兹曼机解决计算机视觉任务中得到应用.

2.ReLU6
ReLU上界设置: ReLU相比sigmoid和tanh的一个缺点是没有对上界设限.在实际使用中,可以设置一个上限,如ReLU6经验函数: f(x)=min(6,max(0,x))

3.Leaky ReLU
当x<0时,f(x)=αx,其中α非常小,这样可以避免在x<0时,不能够学习的情况:f(x)=max(αx,x)
称为Parametric Rectifier(PReLU),将 α 作为可学习的参数.
当 α 从高斯分布中随机产生时称为Random Rectifier(RReLU)。
当固定为α=0.01时,是Leaky ReLU。

4.ELU
exponential linear unit, 该**函数由Djork等人提出,被证实有较高的噪声鲁棒性,同时能够使得使得神经元的平均**均值趋近为 0,同时对噪声更具有鲁棒性。由于需要计算指数,计算量较大。
Relu**函数及其变种
Relu**函数及其变种
5.SELU
自归一化神经网络(Self-Normalizing Neural Networks)中提出只需要把**函数换成SELU就能使得输入在经过一定层数之后变成固定的分布.
SELU是给ELU乘上系数 λλ, 即 SELU(x)=λ⋅ELU(x)
Relu**函数及其变种