残差网络 residual network

残差网络公式推导

其中x为上一层输出到该神经元的值；w为x传到该神经元经过的权重；y为x在某神经元内由**函数求得的输出值。残差网络在神经网络中的表示如下图

注意，输入的w和x可以有多个分支，最后经过F汇总输出。关于残差网络的定义公式可以由下图看出含义：x在经过第一层和加权并经relu非线性变化与第二层加权后得到的F(x)+x，说明是一个线性堆叠，则这两层构成一个残差学习模块，而由残差模块构成的网络称为残差网络。
残差网络的优点
以往的深度学习会由于梯度（gradient）过小出现梯度消失（vanish）（即梯度小于1时）与梯度爆炸（梯度大于1）的情况。梯度过小会使梯度在从目标函数向回传播时的训练误差极小；梯度过大时会导致模型训练出现“NaN”参数。有一些方法进行过优化，但是还是有随着层数加深的时候训练误差增大的情况。残差网络的好处在于当残差为0时，该层神经元只是对前层进行一次现行堆叠，使得网络性能不会下降，这是最差的情况，实际上残差不可能为0。