一、激励函数的选取

常见的激励层函数有sigmoid、tanh、Relu、Leaky Relu、ELU、Maxout

sigmoid函数如下所示：

神经网络训练细节（一）

sigmoid函数是早期用的比较多的激励函数，但现在已经不常用了。主要是当输入特别大或者特别小时，sigmoid函数的偏导数趋于0，这样在使用反向传播算法时将会出现问题,并且sigmoid函数不是关于原点对称的，这样在进行反向传播时w的梯度要么全为正，要么全负（w的梯度即为x乘以上一层的梯度，x恒为正，所以梯度的正负一直不变），收敛速度会非常慢。tanh函数与sigmoid函数图像类似，但是它比sigmoid函数好的一点是tanh函数是关于原点对称的，这样可以减少数据的倾斜。

神经网络训练细节（一）

现在比较常用的激励函数为ReLu（The Rectified Linear Unit/修正线性单元），函数表达式为：f(x)=max(0,x),其函数图像如下所示：

神经网络训练细节（一）

ReLu函数的有点是收敛非常快，因为在原点右侧它的偏导数为1，求导简单，这样在做反向传播时速度比较快。缺点时较为脆弱，原点左侧的函数具有的sigmoid相似的问题，即导数等于0。

Leaky ReLu在是ReLu的“增强版”，其函数表达式为：f(x)=max(ax,x),a通常为一个比较小的数，比如0.01，线面是a=0.01时的图像：

神经网络训练细节（一）

可以看到，相比ReLu，Leaky ReLu在原点左侧的表达式中对x乘以了一个比较小的系数，这样保证了在做反向传播时不会挂掉，并且其计算也很快。

ELU指数线性单元

神经网络训练细节（一）

ELU不会挂掉，计算速度比较快，并且输出的均值趋于0，但是由于指数的存在，计算量略大。

Maxout：神经网络训练细节（一）

两条直线拼接而成，计算是线性的，比较快，不会饱和不会挂，但是参数比较多。

激励函数使用总结：

1.尽量不要用sigmoid函数

2.首选ReLu，速度快，但是需要小心，有可能会挂掉

3.ReLu不行的话再选用Leaky ReLu或者Maxout

二、权重初始化

权重一般都会进行随机初始化（如果不随机的话，比如将所有的权重设置为0，这样所有的神经元都是相同的，在反向传播时做相同的计算，明显不是一个好的方式）。

而如果设置一个比较小的随机值，比如将w设置为一个均值为0，方差为0.01的高斯分布：

神经网络训练细节（一）

当神经网络比较小时会有不错的效果，但是当神经网络比较大时，比如训练一个10层，每层有500个神经元的神经网络，选用tanh做为激励函数，打印出每层的均值和方差如下：

神经网络训练细节（一）

可以看到均值和方差会很快的坍缩到0.这是因为在进行反向传播时，我们要求x的梯度，即w乘以上一层的梯度，而w是一个比较小的值，每层乘以一个w会使梯度很快减小，最终趋于0，这就是梯度弥散。

这时，你也许会想调大w的值，比如将w的系数由0.01改变为1：

神经网络训练细节（一）

不过这时你会发现几乎所有的神经元都会饱和，因为w取值在1附近，输入数据会比较大或比较小，tanh函数会处于两端比较平的那部分，这时求tanh的梯度会趋于0，一些神经元可能不会工作。

对于tanh为激励函数的神经网络，下面的w或许会是一个好的选择：

神经网络训练细节（一）

而对于ReLu激励函数，还要再除以二（因为ReLu的方差会减小一半）：

神经网络训练细节（一）

Batch Normalization

从上面可以看出，神经网络对权重的初始化是非常敏感的。当w取值较大时，前向运算的值会发散（值趋近与-1或1），反向运算的导数值趋于0；而当w取值较小时，会坍缩到0，反向传播求得的梯度也会趋于0（两种情况下做反向传播时梯度趋于0的情况是不一样的，当前的梯度等于w乘以上一层的梯度，w较大时是因为tanh的偏导数趋于0，即上一层的梯度趋于0，w较小时是因为每层梯度都乘以一个较小的数，最终会收敛到0）。当w取值不合适时，神经网络会非常脆弱，那有没有方法能够改进一下呢？这就是接下来要说的Batch Normalization。我们希望经过激励函数后的x的值服从高斯分布（而不是分散或者坍缩），或许我们可以手动修改一下，使得输出值符合高斯分布，对输出值做如下处理：

神经网络训练细节（一）