Identity Mappings in Deep Residual Networks
转载自:https://blog.****.net/wspba/article/details/60572886
在上一篇文章中,对MSRA何凯明团队的ResNet进行了介绍(地址),那篇文章中提到了,1202层的ResNet出现了过拟合的问题,有待进一步改进。第二年,何的团队就发表了“Identity Mappings in Deep Residual Networks”这篇文章,分析了ResNet成功的关键因素——residual block背后的算法,并对residual block以及after-addition activation进行改进,通过一系列的ablation experiments验证了,在residual block和after-addition activation上都使用identity mapping(恒等映射)时,能对模型训练产生很好的效果,通过这项改进,也成功的训练出了具有很好效果的ResNet-1001。
在原始的ResNet中,对于每一个residual building block:
可以表现为以下形式:
而本文提出了,如果h(x)和f(y)都是恒等映射,即h(xl)=xlh(xl)=xl,而求和的计算量远远小于求积的计算量。
而对于反向传播,假设损失函数为EE,同时这个公式也保证了不会出现梯度消失的现象,因为不可能为-1。
通过了以上分析,作者设计实验来进行验证。
首先,对于恒等跳跃连接h(xl)=xlh(xl)=xl的误差衰减最快、误差也最低,而其他形式的都产生了较大的损失和误差。
作者认为,捷径连接中的操作 (缩放、门控、1××1的卷积捷径连接引入了更多的参数,本应该比恒等捷径连接具有更加强大的表达能力。但是它的效果并不好,这表明了这些模型退化问题的原因是优化问题,而不是表达能力的问题。
接下来,对于**函数,作者设计了以下几种形式:
实际上只是**函数(ReLU/BN)的位置有所不同,由于作者希望构建一个恒等的f(yl)=ylf(yl)=yl也是恒等映射,优化变得更加简单(与原始ResNet相比)。第二,在预**中使用BN能够提高模型的正则化,从而减少了过拟合的影响。
这篇文章为深层模型的训练提供了很好的方式和思路,也促进了深层模型的进一步发展,接下来我将会把这篇文章的译文提供给大家,也欢迎大家的批评指正。