深度学习---梯度消失与梯度爆炸问题

深度学习—梯度消失与梯度爆炸问题
梯度消失与梯度爆炸问题来源于网络的反向传播。
以sigmoid**函数为例,其函数图像成一个S型,如下所示,它会将正无穷到负无穷的数映射到0~1之间:
深度学习---梯度消失与梯度爆炸问题

sigmoid**函数的导数f’(x) = f(x)(1-f(x)),取值范围为(0.0.25]
1)梯度消失:反向传播时,根据链式法则,若网络权重|w|小于1,随着网络层数增加,求导时多个小于1的数相乘,使得导数趋近于0,导致较浅层(!注意是较浅层)网络的权重无法更新,这就是梯度消失现象。
2)梯度爆炸:同理,若网络更新前的权重过大,求导时梯度累积产生非常大的梯度,甚至呈指数式增长,这种现象为梯度爆炸。它会导致网络权重大幅更新,使得网络不稳定。极端情况下,权值非常大以至溢出,会出现NaN值。