文章这一部分主要是介绍普通卷积和深度可分离卷积在计算方式上的差异，并且给出他们在所需计算量上的不同。假设论文阅读——MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications 为输入特征图，为卷积核的尺寸，为输出特征图的尺寸，是输入通道数，是输出通道数。

1、标准卷积

假设步长为1，并且有填充，则标准卷积计算特征图的表达式如下所示：

论文阅读——MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

很明显，进行一次标准卷积的计算量如下：

论文阅读——MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

卷积一般有两个作用：1.使用卷积核(过滤器)对图中的特征进行提取。2.对提取的特征进行融合。在标准卷积中这两步一般是同时进行的，但是在深度可分离卷积中这两步是分开的。

2、深度可分离卷积

深度可分离卷积由两次卷积构成：深度分离卷积和逐点卷积。
深度分离卷积：深度分离卷积把输入特征图的所有通道进行分离，每个通道对应一个卷积核对该通道的特征图进行单独的卷积操作(也就是说在深度分离卷积中，每个卷积核的深度固定为1)。因此深度分离卷积计算特征图的表达式和计算量如下：

深度分离卷积计算特征图的表达式

逐点卷积：这一步主要是将使用滤波器分离出来的特征进行融合。具体操作是用个大小为1×1、深度为的卷积核，对深度分离卷积输出的深度为的特征图进行统一卷积。计算量为。

因此计算一次深度可分离卷积的总体计算量为：

论文阅读——MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

相应的，可以计算深度可分离卷积和标准卷积的计算量比如下，很明显可以看出深度可分离卷积的计算量是明显要小的。

论文阅读——MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

3.2、网络结构和训练

1、网络结构

MobileNet共有28层，总体结构如下表所示：

论文阅读——MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

在每层卷积后都会插入一个BN层和ReLU**函数层，如下图所示：

2、训练设置：

深度可分离卷积结构几乎把全部的计算复杂度放到了1*1卷积中，可以使用高度优化的通用矩阵乘法(GEMM)实现计算。

由于小网络不易过拟合，MobileNet较少使用正则化和数据增强技术(如没有使用side heads或者label smoothing)。

3.3、宽度乘子：更窄的模型

为了方便在各种设备上应用，文章中设置了一个宽度乘子论文阅读——MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications 用于改变网络的宽度，即输入和输出通道的个数。时是基准MobileNet，而时是减小的MobileNet。输入输出的通道数分别变为和，因此在引入宽度乘子后一层深度可分离卷积的计算量为：

论文阅读——MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

3.4、分辨率乘子：减少表达

文章中设置的第二个超参数是分辨率乘子论文阅读——MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications ，顾名思义他是用来减少每一层输出的特征图大小的，通过减小特征图的分辨率来降低模型所需要的计算量，加入和的模型计算量公式为：

论文阅读——MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

4、Experiments

4.1、模型选择

文章首先将使用全卷积的MobileNets和使用深度可分离卷积的MobileNets进行精度和计算量的对比，如下表所示，很明显使用深度可分离卷积的MobileNets在损失极小精度的同时，大大减少了计算量。

论文阅读——MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

接着作者又对比了较浅的MobileNets网络(删除了5层卷积层)和较窄的MobileNets网络的精度和计算量，如下表所示。

论文阅读——MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

4.2减小模型中的超参数

作者首先不断减小MobileNets的宽度乘子，并观察其精度的变化，如下表所示。可以看到在为0.25前，精度的下降都是比较平稳的。

论文阅读——MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

其次将固定为1，不断减小分辨率乘子，并观察其精度变化，如下表所示随着的减小，精度的下降是比较平稳的。

论文阅读——MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

下图显示的是宽度乘子与分辨率为进行组合形成的16个模型在ImageNet精度和计算量之间的权衡。

论文阅读——MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

下图显示的是宽度乘子与分辨率为进行组合形成的16个模型在ImageNet精度和参数量之间的权衡。

论文阅读——MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

下表使用基准MobileNets与VGG16和GoogleNet进行了对比。

论文阅读——MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

使用宽度乘子，分辨率为160的缩小的MobileNets与Squeezenet和AlexNet进行对比。

论文阅读——MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

4.3、细纹理识别

作者收集了一个更大但是有更多噪声的训练集，用来训练一个狗的识别模型，具体结果如下表。

论文阅读——MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

4.4、大范围地理定位

论文阅读——MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

4.5、面部特征

论文阅读——MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

4.6、目标检测

论文阅读——MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

4.7、人脸识别

论文阅读——MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

5、Conclusion

提出了一种基于深度可分离卷积的新型网络MobileNets，并设置宽度乘子和分辨率乘子以调整网络大小达到在不同设备上适配的目的。
将MobileNets与其他先进的模型进行对比，并将其引用于不同任务中，凸显了MobileNets良好的尺寸和性能。

论文阅读——MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

前言

Abstract

1、Introduction

2、Prior Work

3、MobileNet Architecture

3.1、深度可分离卷积

3.2、网络结构和训练

3.3、宽度乘子：更窄的模型

3.4、分辨率乘子：减少表达

4、Experiments

4.1、模型选择

4.2减小模型中的超参数

4.3、细纹理识别

4.4、大范围地理定位

4.5、面部特征

4.6、目标检测

4.7、人脸识别

5、Conclusion

相关推荐