常用的**函数

**函数的作用

**函数的作用主要是在网络中增加非线性的因素，试想一下如果没有**函数，那么全连接or卷积神经网络将会是纯线性黑箱。
首先需要了解**函数的几个特性。

饱和

当x->+00时，h’(x)->0,右饱和。
当x->-00时，h’(x)->0,左饱和。
当一个**函数即是左饱和又是右饱和时，称之为饱和。

硬饱和&软饱和

当x>x1时，h’(x)->0,右硬饱和。
当x<x1时，h’(x)->0,左硬饱和。
当一个**函数即是左硬饱和又是右硬饱和时，称之为硬饱和。
当一个**函数只有x->00时才h’(x)->0，称之为软饱和。
对于**函数来说，饱和是一个很难受的特征，因为它会引发梯度消失。

梯度消失&梯度爆炸

因为反向传播，导数是逐层传递到前面的，所以前面层的导数是后面层的叠乘。这就存在两个问题，如果后面层的导数都很大，传递到前面时导数就会变得巨大无比，这就是梯度爆炸。如果后面层的导数非常小，传递到前面时导数越来越小，则会导致梯度消失。梯度爆炸会导致网络不稳定，梯度消失则会到时网络训练及其困难。
所以对于**函数来说，最好不要存在饱和特性，因为饱和会导致梯度消失。

常用的**函数

sigmod

sigmod公式：
常用的**函数

可以看出sigmod是典型的软饱和**函数。
优点：
1.求导容易。
2.因为软饱和，所以不会发生梯度爆炸，梯度较为稳定。
缺点：
1.容易导致梯度消失。
2.其输出并不是以0为中心的。

Tanh

公式：
常用的**函数

tanh是sigmod一次不成功的改进，它会比sigmod收敛快一些，但是并没有解决sigmod的根本问题，梯度消失。

RELU

relu是近些年最受欢迎的**函数了。
公式：
常用的**函数

优点：
1.在SGD中收敛速度更快。
2.解决了sigmod的梯度消失问题。
3.计算速度快，无论是正向传播还是求导。
缺点：
神经元死亡问题。当x<0时，其数值和导数永远为0，也就导致了反向传播时，只要一个神经元导数为0了，其前面的神经元导数也永远为0。