Caffe Layers之conv_layer(卷积层)

概述

卷积层是组成卷积神经网络的基础应用层，也是最常用的层部件。而卷积神经网路有事当前深度学习的根本。在一般算法的Backbone、neck和head基本都是由卷积层组成。

1. 卷积操作

一般从数学角度讲，卷积分两个步骤，第一步做翻转，第二部乘积求和。 DL中的卷积操作是一种无翻转卷积，类似于相关操作。卷积的作用即是提取特征，通过一层层的卷积，使得特征被一步步浓缩。在卷积操作过程中，浅层卷积保留更多的描述信息，而深层卷积描述更多的抽象特征。

如下，描述了一个单通道输入矩阵（输入图像也是矩阵，不过是多通道（3通道））的计算过程。多通道卷积是将单通道卷积的结果对应相加，此处不过多赘述，很多资料中已经讲得很详细。

左手Coffee，右手Caffe - 3 - Caffe Layers之conv_layer(卷积层)

2. 卷积操作所涉及的参数

在进行卷积操作过程中，有一些参数是需要关注的。包括输入矩阵的shape，卷积核w和h，输入矩阵pad信息，输入矩阵的dilation信息等。

其中在caffe中，输入矩阵的shape为NCHW模式，分别是batch size, 通道数，高，宽信息；卷积核的宽和高；输入矩阵的填充信息，输入矩阵的膨胀信息（一般都不膨胀）。

Caffe在处理卷积层时，为了便于使用cblas_sgemm做矩阵相乘计算，特意推导出出了一些既定的数据。包括im2col的数据，推导卷积后特征矩阵的W和H信息，通道信息，以及每个特征图数据总量等。

3. Caffe卷积层

Caffe在实现卷积层时，用了两个类，分别是base_conv_layer和conv_layer。其中base_conv_layer更底层，用于读进卷积层参数信息，设置卷积层参数(LayerSetUp)，Reshape输入输出Blob(Reshape), 用于前向计算的矩阵乘法forward_cpu_gemm和forward_gpu_gemm, 计算权重矩阵的forward_cpu_bias和forward_cpu_bias，反向传播时使用到的矩阵计算backward_cpu_gemm和backward_gpu_gemm，反向时偏置计算backward_cpu_bias和backward_gpu_bias，用于计算权值偏差的weight_cpu_gemm和weight_gpu_gemm。接下来通过详细解读代码，看一看具体的操作流程。

4. LayerSetUp

LayerSetUp是卷积层的配置入口，通过读取Protobuf生成的数据（ConvolutionParameter），配置网络，得到一些预设的参数。

其中：

channel_axis_是卷积的通道轴的索引，在caffe中，数据一般是以NCHW的形式存在的，所以一般取值为1。

first_spatial_axis_是空间轴的第一个索引。一般caffe中将w和h轴称为空间轴。

num_axes是数据轴的总数，NCHW数据形制的话，一般取值为4。

num_spatial_axes_为空间轴数量，因为只有H和W，所以取值为2。

bottom_dim_blob_shape用来保存输入数据的shape信息。由于在进行计算时，只是输入CHW信息，参与计算，所以此处取值是num_spatial_axes_+1, 即当前初始化为三个int型的vector。

spatial_dim_blob_shape用来保存卷积核的shape信息。

接下来初始化kernel_shape_, 通过

kernel_shape_data[0] = conv_param.kernel_h(); ///< kernel高

kernel_shape_data[1] = conv_param.kernel_w(); ///< kernel宽

来指定了protobuf文件中指定的H和W信息。

stride_是卷积步长信息，是通过如下获得。

stride_data[0] = conv_param.stride_h();

stride_data[1] = conv_param.stride_w();

pad_是对卷积输入的x和y方向的填充信息，是通过如下获得。

pad_data[0] = conv_param.pad_h();

pad_data[1] = conv_param.pad_w();

dilation_是对卷积输入的膨胀操作信息，一般不膨胀，通过如下获得：

for (int i = 0; i < num_spatial_axes_; ++i) {

dilation_data[i] = (num_dilation_dims == 0) ? kDefaultDilation :

conv_param.dilation((num_dilation_dims == 1) ? 0 : i);

}

接下来是要判断当前卷积是否是1*1卷积，1*1卷积当前主要作用是维度的升降，如YOLOv3和YOLOv4中都有使用1*1卷积进行降维，以实现特征图的融合。

左手Coffee，右手Caffe - 3 - Caffe Layers之conv_layer(卷积层)

接下来是配置输入和输出的通道数

左手Coffee，右手Caffe - 3 - Caffe Layers之conv_layer(卷积层)

weight_shape是权值的shape，首先是初始化为两个成员，分别是conv_out_channels_和conv_in_channels/group_, 前者是卷积输出通道数，代表有几个权值核组，后者设group_=1来看，就是每个卷积核组中有几个卷积核，即是设置了卷积核的N和C信息。之后通过

for (int i = 0; i < num_spatial_axes_; ++i) {

weight_shape.push_back(kernel_shape_data[i]);

}

设置卷积核的H和W信息。

自此，卷积核的NCHW信息设置完毕。

bias_term_设置是否启用偏置项，偏置项的shape为(1, num_output_), 即每一个组数量是(1*输出卷积通道数)。

卷集中，blobs_[0]存储权值信息，blobs_[1]存储偏置项。

kernel_dim_表征一个权值组的总数据量。

weight_offset_表征一个卷机组(只对分组卷积起作用)的卷积核总量。

未完待续...

左手Coffee，右手Caffe - 3 - Caffe Layers之conv_layer(卷积层)

Caffe Layers之conv_layer(卷积层)

概述

1. 卷积操作

2. 卷积操作所涉及的参数

3. Caffe卷积层

4. LayerSetUp

相关推荐