Xavier——Understanding the difficulty of training deep feedforward neural networks

1. 摘要


作者发现 sigmoid 函数不适合深度网络,在这种情况下,随机初始化参数会让较深的隐藏层陷入到饱和区域。

作者提出了一个新的参数初始化方法,称之为 Xavier 初始化,来帮助深度网络更快地收敛。

2. **函数的作用以及训练过程中的饱和现象

2.1. 三种**函数


2.2. Sigmoid 函数

通过观察训练过程中每一个隐藏层**值的均值和方差,我们可以发现第 4 层的**值很快就进入到了饱和区域,非常接近于 0。由于 Sigmoid 函数在接近于 0 的时候梯度很小,这样的话反向传播过程就会学习得很慢,虽然最终网络会慢慢离开饱和区域,但往往学到的解也不是最优的。

2.3. Tanh 函数和 Softsign 函数

由于 Tanh 函数和 Softsign 函数接近于 0 的时候梯度近似线性,所以它们不会遇到像 Sigmoid 上面的情况。但是,采用 Tanh 作为**函数时,从第一层到第四层的**值却也会在训练过程中依次进入饱和区域。而采用 Softsign 的话,所有层都逐渐进入饱和区域,但这个过程会更慢一点。

在训练完成后,我们可以发现以 Tanh 作为**函数,最终每层的**值大多落在饱和区域和 0 附近;以 Softsign 作为**函数,最终每层的**值大多落在 (-0.6, -0.8) 和 (0.6, 0.8) 区间。

3. 梯度以及它们的传播

3.1. 损失函数


3.2. Xavier 初始化

针对一个对称的**函数,并且其在原点处的导数为 1,那么我们有:

假设初始时我们位于线性区域,权重之间互相独立,并且输入的特征具有一样的方差 Var[x]Var[x],第 ii 层具有 nin_i 个神经元,那么有:

Xavier——Understanding the difficulty of training deep feedforward neural networks

可参考 Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification 对比进行分析。


其中,UU 代表均匀分布,其方差为

(ba)212=2nj+nj+1\frac{(b-a)^2}{12} = \frac{2}{n_j+n_{j+1}}


可以看到,在前向传播过程中,旧的初始化方法,越靠后的层**值越容易陷入到 0 区域,而采用新的初始化方法后,每一层的**值分布基本相同。

在反向传播过程中,旧的初始化方法,越靠前的层梯度值越容易陷入到 0 区域,而采用新的初始化方法后,每一层的梯度分布基本相同。

5. 实验结果

