神经网络学习技巧之批次归一化(Batch Normallization)

前提:

深度网络内部数据分布在训练过程中发生变化的现象
神经网络学习技巧之批次归一化(Batch Normallization)
例如第一组训练为:
神经网络学习技巧之批次归一化(Batch Normallization)
第二组训练结果为;
神经网络学习技巧之批次归一化(Batch Normallization)
This difference in distribution is called the covariate shift(协变量偏移)。输入层可通过样本随机化
解决。
• 在神经网络中,每次在前一层中存在参数更新时,每个隐藏单元的输入分布都会发生变化。 这称为
Internal Covariate Shift(内部协变量偏移)。 这使得训练变慢并且需要非常小的学习率和良好的参数
初始化 。

批次归一化 (Batch Normalization)的采用理由

优化地貌(optimization landscape )更加平滑,使梯度更具预测性和稳定性,允许更快的训练。
神经网络学习技巧之批次归一化(Batch Normallization)
这样比较容易预测,容易榆次梯度,加快训练
• 通常插入在卷积和全连接之后,在非线性处理前。位置:卷积 → BN → ReLU
• 为使每一维成为标准高斯分布(均值为0,方差为1),可应用神经网络学习技巧之批次归一化(Batch Normallization)
• 为能工作在**的非线性区,再进行缩放和移位(scale&shift)处理
神经网络学习技巧之批次归一化(Batch Normallization)