ReLu(Rectified Linear Units)**函数

1 传统Sigmoid系**函数

ReLu(Rectified Linear Units)**函数

传统神经网络中最常用的两个**函数,Sigmoid系(Logistic-Sigmoid ReLu(Rectified Linear Units)**函数、Tanh-Sigmoid)被视为神经网络的核心所在。

从数学上来看,非线性的Sigmoid函数对*区的信号增益较大,对两侧区的信号增益小,在信号的特征空间映射上,有很好的效果。

从神经科学上来看,*区酷似神经元的兴奋态,两侧区酷似神经元的抑制态,因而在神经网络学习方面,可以将重点特征推向*区,将非重点特征推向两侧区。

无论是哪种解释,看起来都比早期的线性**函数(y=x),阶跃**函数(-1/1,0/1)高明了不少。

1.1 近似生物神经**函数:Softplus&ReLu 

2001年,神经科学家Dayan、Abott从生物学角度,模拟出了脑神经元接受信号更精确的**模型,该模型如左图所示:

ReLu(Rectified Linear Units)**函数ReLu(Rectified Linear Units)**函数

这个模型对比Sigmoid系主要变化有三点:①单侧抑制 ②相对宽阔的兴奋边界 ③稀疏**性(重点,可以看到红框里前端状态完全没有**)

同年,Charles Dugas等人在做正数回归预测论文中偶然使用了Softplus函数,Softplus函数是Logistic-Sigmoid函数原函数,即,softplus的微分就是logistic function

ReLu(Rectified Linear Units)**函数

按照论文的说法,一开始想要使用一个指数函数(天然正数)作为**函数来回归,但是到后期梯度实在太大,难以训练,于是加了一个log来减缓上升趋势。

加了1是为了保证非负性。同年,Charles Dugas等人在NIPS会议论文中又调侃了一句,Softplus可以看作是强制非负校正函数(Rectified Linear Units) f(x) = max(0,x)的平滑版本。

偶然的是,同是2001年,ML领域的Softplus/Rectifier**函数与神经科学领域提出的脑神经元**频率函数有神似的地方,这促成了新的**函数的研究。

另外一种函数叫做softmax function或者normalized exponential是logistic function的一个泛化,如下: 
ReLu(Rectified Linear Units)**函数

the softmax function常被用来various probabilistic multiclass classification methods 比如multinomial logistic regression,multiclass linear discriminant analysis, naive Bayes classifiers and artificial neural networks等。在Andrew Ng的机器学习课程中,softmax regression中就用到了softmax function。这里点一下说明。当然本文的重点还是在rectified linear function上。

2. 几种变体:

noisy ReLUs
可将其包含Gaussian noise得到noisy ReLUs,f(x)=max(0,x+N(0,σ(x))),常用来在机器视觉任务里的restricted Boltzmann machines中。

leaky ReLUs
允许小的非零的gradient 当unit没有被**时。 
ReLu(Rectified Linear Units)**函数

3. Advantages

(Softplus是ReLU的圆滑版,公式为:g(x)=log(1+e^x),从上面的结果看,效果比ReLU稍差) 
ReLU在经历预训练和不经历预训练时的效果差不多,而其它**函数在不用预训练时效果就差多了。ReLU不预训练和sigmoid预训练的效果差不多,甚至还更好。 
相比之下,ReLU的速度非常快,而且精确度更高。 
因此ReLU在深度网络中已逐渐取代sigmoid而成为主流。 
ReLU导数(分段): 
x <= 0时,导数为0 
x > 0时,导数为1 
早期多层神经网络如果用sigmoid函数或者hyperbolic tangent作为**函数,如果不进行pre-training的话,会因为gradient vanishing problem而无法收敛。 
而预训练的用处:规则化,防止过拟合;压缩数据,去除冗余;强化特征,减小误差;加快收敛速度。而采用ReLu则不需要进行pre-training。