您的位置: 首页 > 文章 > 手工推导---神经网络中的梯度爆炸与消失

手工推导---神经网络中的梯度爆炸与消失

分类: 文章 • 2023-11-25 22:51:34

梯度爆炸与消失的推导

以一个3个神经元的网络为例，优化参数w1
手工推导---神经网络中的梯度爆炸与消失
综上所述原因如下：

梯度消失一般出现深层网络中采用了不合适的损失函数。
梯度爆炸一般出现在深层网络和权值初始化值太大的情况下。

解决方案

（1）预训练加微调
（2）梯度剪切、正则
（3）ReLU、LeakyReLU、ELU等**函数
（4）BatchNormalization
（5）残差结构
（6）LSTM

本文重点解释问题产生的原因，解决方案可参考
文章1