残差网络 residual network

  1. 残差网络公式推导

    残差网络 residual network

    其中x为上一层输出到该神经元的值;w为x传到该神经元经过的权重;y为x在某神经元内由**函数求得的输出值。残差网络在神经网络中的表示如下图

    残差网络 residual network

    注意,输入的w和x可以有多个分支,最后经过F汇总输出。关于残差网络的定义公式可以由下图看出含义:x在经过第一层和加权并经relu非线性变化与第二层加权后得到的F(x)+x,说明是一个线性堆叠,则这两层构成一个残差学习模块,而由残差模块构成的网络称为残差网络。

    残差网络 residual network

     

  2. 残差网络的优点

    以往的深度学习会由于梯度(gradient)过小出现梯度消失(vanish)(即梯度小于1时)与梯度爆炸(梯度大于1)的情况。梯度过小会使梯度在从目标函数向回传播时的训练误差极小;梯度过大时会导致模型训练出现“NaN”参数。有一些方法进行过优化,但是还是有随着层数加深的时候训练误差增大的情况。残差网络的好处在于当残差为0时,该层神经元只是对前层进行一次现行堆叠,使得网络性能不会下降,这是最差的情况,实际上残差不可能为0。