sigmoid梯度消失现象解释

sigmoid梯度消失现象解释
解释:
大部分情况下初始化W参数时,基本都是小于 1 的,二 sigmoid函数的导函数如图所示,求导的最大值为0.25,神经网络结构中每一层都有**函数,这样在反向传播求导时,每一层都会乘以一个sigmoid的导函数值,最大为0.25,当神经网络层数太多时,也就是乘以多个0.25时,值就会特别的小,就会出现梯度消失的现象。