【Imagenet LSVRC系列模型】VGGnet-2014 Very deep convolutional networks for large-scale image recognition

Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.

2014年ImageNet 图像分类第二名,物体检测第一名。

论文主要贡献:

1:分别训练了深度从11-19的ABCDE五个网络模型(图1),探究了深度对CNN效果的影响,发现模型越深,效果越好。

2、采用小卷积核(3*3)代替大卷积核(5*5或7*7):

(1)多个小卷积核堆叠非线性**带来的非线性效果强于单一的一个大卷积核非线性**。

(2)假设前后层feature map 通道数都为C,两个3*3卷积的感受野与一个5*5卷积的感受野一样,但前者参数量为C*C*3*3*2,后者参数量为C*C*5*5,后者较大。由此降低参数量。

3、训练时,增强训练数据集在尺度方面的多样性(通过将训练图像缩放到一定scale范围),训练得到的模型,对于尺度变化的适应性更强。

4、测试时,将网络后面的全连接层换为卷积层,变成全卷积网络。对输入图像进行稠密式地分类,最后取平均分类结果。(以前一般的做法是,对输入图像先进行crop,得到多张图像,分别进行分类,取最后平均结果。而在这里,通过改为全连接网络,不需要先对输入图像进行crop,而直接输入网络进行分类,最后得到score map。score map 实际上就是多个crop的分类结果,直接取平均即可。这样做的好处一方面是节省计算量,另一方面,减少crop后,pad过程带来的信息损失。)

5、论文还通过实验证明,LRN对分类效果影响不大,反而增加了计算量。

6、通过训练多个模型进行ensemble,能使效果些许提升。

【Imagenet LSVRC系列模型】VGGnet-2014 Very deep convolutional networks for large-scale image recognition

图1  文中不同深度的网络模型结构及参数量

【Imagenet LSVRC系列模型】VGGnet-2014 Very deep convolutional networks for large-scale image recognition

图2  12年以来不同网络在ImageNet图像分类上的结果