**函数篇（Sigmoid、tanh、ReLU、PReLU）

写在前面：此文只记录了下本人感觉需要注意的地方，不全且不一定准确。详细内容可以参考文中帖的链接，比较好！！！
常用**函数（激励函数）理解与总结
 **函数的区别与优点
 梯度消失与爆炸

在多层神经网络中，上层节点的输出和下层节点的输入之间具有一个函数关系，这个函数称为**函数（又称激励函数）。 **函数篇（Sigmoid、tanh、ReLU、PReLU）

如果不用**函数，每一层的输入都是上一层输出的线性函数，而多层线性函数与一层线性函数的功能是等价的，网络的逼近能力就相当有限，因此引入非线性函数作为激励函数，使得深层神经网络的可以更好的逼近任意函数。

梯度反向传递时，容易导致梯度的爆炸和消失（大概率梯度消失，有时梯度爆炸）。

而由于 $\sigma （z）$ 最大值为0.25，且通常初始| w | < 1 ，则有：

极易出现梯度消失；当初始化 |w| > 4 时，w * $\sigma （z）$ > 1 ，才会产生梯度爆炸。
sigmoid函数的输出不是0均值。若该层神经元得到上一层的非0输出作为输入，产生的回传梯度的符号就会相同，或者都为正或者都为负，导致捆绑效果，使结果收敛变慢（例如，当x>0时，y = w*x + b，对w求导，得到的梯度全为正）
解析式中有幂运算，计算量相对较大