您的位置: 首页 > 文章 > 手工推导---神经网络中的梯度爆炸与消失 手工推导---神经网络中的梯度爆炸与消失 分类: 文章 • 2023-11-25 22:51:34 梯度爆炸与消失的推导 以一个3个神经元的网络为例,优化参数w1综上所述原因如下: 梯度消失一般出现深层网络中采用了不合适的损失函数。 梯度爆炸一般出现在深层网络和权值初始化值太大的情况下。 解决方案 (1)预训练加微调 (2)梯度剪切、正则 (3)ReLU、LeakyReLU、ELU等**函数 (4)BatchNormalization (5)残差结构 (6)LSTM 本文重点解释问题产生的原因,解决方案可参考文章1