Gated Convolutional Networks with Hybrid Connectivity for Image Classification,用于图像分类的门限混合连通性卷积网络

本篇博客介绍在AAAI-2020发表的关于人工设计的一种高效图像分类结构:
论文名称:Gated Convolutional Networks with Hybrid Connectivity for Image Classification
论文地址 : https://arxiv.org/pdf/1908.09699.pdf
代码实现:https://github.com/winycg/HCGNet

1.引言

  • 作者提出了一种简单但是高效的方法来减少DenseNet的冗余性,即将原始bottleneck模块的堆叠数量替换为作者设计的SMG模块,其中SMG模块嵌入了局部的residual连接。
  • 此外,SMG模块配备了一个高效的two-stage pipeline,来适应DenseNet-like的结构(需要聚合先前的输出),即:压缩进入的informative但是冗余的feature map通过逐层的卷积,之后**feature map通过multi-kernel卷积,SMG模块输出的特征是compact并且是具有multi-scale features的。
  • 作者进一步通过引入attention机制开发了forget gate和update gate来实现新特征和旧特征的fusion,而不是采用ResNet中简单相加的方式。
  • 由于Hybrid Connectivity(嵌套的结合of global dense和local residual,以及Gated mechanism,我们称最终的网络为HCGNet。
  • 在CIFAR和Imagenet的实验结果标明HCGNet显著的超过了其他SOTA网络。此外,HCGNet获得了优秀的可解释性和对抗鲁棒性。在MS-COCO数据集上,HCGNet作为backbone,在目标检测和语义分割上超过了ResNet。

2.网络结构

2.1 Hybrid connectivity混合连通性

Revisiting ResNet和DenseNet

ResNet引入了residual connectivity来实现input和output的相加在每一个micro-block.DenseNet具有dense connectivity,通过改变skip连接由additive改为concatenation。两种feature 聚合连通性都可以促进feature reuse,并且减轻训练问题。下面根据参数共享特征学习整体效率来进行分析:
(1)参数共享

  • residual connectivity隐式地伴随着参数共享对于reused features和newly extracted features,因为当前卷积block处理的特征是上一个block的reused features和newly extracted features相加之后的混合特征。
  • dense connectivity对于reused features和newly extracted features不是参数共享,因为当前卷积block处理的特征是上一个block的reused features和newly extracted features concate之后的混合特征。

(2)特征学习

  • residual connectivity中的特征addition模式以没有增加feature map规模的方式促进了高效的特征重用,因此减少了参数冗余性。但是一个潜在的事实是太多的addition特征聚合会造成特征表示的坍塌和组织信息流动,因此一些早期的informative特征可能会难免被丢失。此外,参数共享机制可能会损害探索新特征的能力。

  • dense connectivity:后来提出的DenseNet开发了全局的dense connectivity,可以将早期的feature maps传送到后续的模块,因此保护了先前的所有信息并且促进了现有feature 的开发。此外,不同的模块对相同的特征进行共同学习,促进了有效的特征探索。

(3)整体效率
在CIFAR-10数据集,DenseNet-100利用0.8M的参数量超过了10.2M的ResNet-1001。明显的参数差距在于DenseNet-100比ResNet-1001深度更浅,由于DenseNet-100更有效的特征探索和利用模式,ResNet主要依靠增加的深度来提升特征表示能力。实验上,DenseNet每层卷积可以具有非常少的filter数量由于共同学习机制。但是一个潜在的缺点是dense connectivity对于相同特征进行重复提取造成冗余性。residual connectivity具有相对低的冗余性,由于参数共享机制。

Hybrid connectivity

为了结合residual connectivity和dense connectivity的优势同时避免两者的缺点,作者创建了Hybrid connectivity,采用了全局的dense connectivity和局部的residual connectivity进行嵌套的结合,即模块内部采用residual连接,模块外部采用dense connectivity,如下图1所示。

作者主要的动机(motivation)
在于减少dense connectivity的冗余性。随着网络深度的线性增加,skip连接的数量和需求的参数量以O(n2)O(n^{2})的速率进行增长,其中nn代表在dense connectivity下堆叠的模块数量。同时,早期冗余的特征具有低贡献但是还是平方级地传到后面的模块。所以一个简单的方法是减少冗余性的方法是直接减少模块的数量,但是这样会降低特征的表示能力。因此作者在局部的模块中嵌入残差连通性来协助特征学习,构建了新的SMG模块。通过实验表明,在dense connectivity下SMG模块比经典的bottleneck模块堆叠的数量要小很多,但是却没有牺牲性能。
Gated Convolutional Networks with Hybrid Connectivity for Image Classification,用于图像分类的门限混合连通性卷积网络

具体的连通性细节
hybrid connectivity模式存在于hybrid block中,类似于DenseNet的dense connectivity发生在dense block中。hybrid block包含了n(n2)n(n\geq 2)个模块,在这里,模块被命名为SMG模块。匹配growth rate在DenseNet的概念,每一个模块产生kk个channel的feature map。SMG模块包含2个连续的cell,称为cell 1和cell 2。全局地,每一个模块的输入时先前所有模块的输出的concatenation。局部地,residual connectivity提供了一个shortcut来让cell 1的输出绕过cell 2然后与cell 2产生的新特征进行相加来产生输出。

SMG模块

为了配合hybrid connectivity,作者设计了SMG模块,包含了Squeeze cell (cell 1),Multi-scale excitation cell (cell 2)和Gated mechanisms。除了特殊的说明,作者采用pre-activation的卷积,主要包含3个连续的操作:batch normalization (BN)-rectified linear unit (ReLU)-Conv。