deep learning 四种**函数比较

sigmoid 又叫S型函数，是最长用的**函数，特点是在定义域内均可导，这样可以避免出现学习停止现象，因为一直有梯度，但也容易产生，在大批量学习时，后期学习太慢，因为如果函数输入值越大，梯度越小。在反向传播时，导致越来越小。最终梯度消失。
tanh 函数，也是常见的**函数，与sigmoid相似，好比tanh拉长了就变成了sigmoid，输出为-1， 1。输出均值为0。为了保证模型的准确性，可以在隐藏层中使用tanh, 加快学习速度，输出用sigmoid, 保证精确性。
ReLU 函数在Alex 获奖之前很少用，因为有导数为0的区域，以及0点以上的梯度保持不变，但Alex 获奖后也证实了ReLU的强大，应为梯度不在下降，不存在梯度消失问题，同时梯度一直保持很大的值下降，加快学习速度，但存在权重无法更新现象。
SELU是根据Relu的思想得出，解决relu出现的无法继续学习问题。