手工推导---神经网络中的梯度爆炸与消失

梯度爆炸与消失的推导

以一个3个神经元的网络为例,优化参数w1
手工推导---神经网络中的梯度爆炸与消失
综上所述原因如下:

  1. 梯度消失一般出现深层网络中采用了不合适的损失函数。
  2. 梯度爆炸一般出现在深层网络和权值初始化值太大的情况下。

解决方案

(1)预训练加微调
(2)梯度剪切、正则
(3)ReLU、LeakyReLU、ELU等**函数
(4)BatchNormalization
(5)残差结构
(6)LSTM

本文重点解释问题产生的原因,解决方案可参考
文章1