神经网络学习技巧之批次归一化（Batch Normallization）

前提：

深度网络内部数据分布在训练过程中发生变化的现象
神经网络学习技巧之批次归一化（Batch Normallization）
例如第一组训练为：

第二组训练结果为;

This difference in distribution is called the covariate shift（协变量偏移）。输入层可通过样本随机化
解决。
• 在神经网络中，每次在前一层中存在参数更新时，每个隐藏单元的输入分布都会发生变化。这称为
Internal Covariate Shift（内部协变量偏移）。这使得训练变慢并且需要非常小的学习率和良好的参数
初始化。

批次归一化 (Batch Normalization)的采用理由

优化地貌（optimization landscape ）更加平滑，使梯度更具预测性和稳定性，允许更快的训练。
神经网络学习技巧之批次归一化（Batch Normallization）
这样比较容易预测，容易榆次梯度，加快训练
• 通常插入在卷积和全连接之后，在非线性处理前。位置：卷积 → BN → ReLU
• 为使每一维成为标准高斯分布(均值为0，方差为1)，可应用神经网络学习技巧之批次归一化（Batch Normallization）
• 为能工作在**的非线性区，再进行缩放和移位（scale&shift）处理

神经网络学习技巧之批次归一化（Batch Normallization）

前提：

批次归一化 (Batch Normalization)的采用理由

相关推荐