卷积神经网络基础

文章目录

二维卷积层

二维互相关运算
特征图与感受野
填充和步幅
多输入通道和多输出通道
1*1卷积层
池化层

二维卷积层

二维互相关运算

二维互相关运算指的是输入、卷积核、输出都是二维的互相关运算，即卷积核在输入上横向和竖向移动，分别对盖住的区域进行元素一一对应加总
卷积神经网络基础
有时候除了互相关运算，还会最后加上一个标量偏置得到输出。卷积层的模型参数包括卷积核和偏置

特征图与感受野

二维卷积层输出的二维数组可以看作是输入在空间维度（宽和高）上某一级的表征，也叫特征图（feature map）。影响元素 $x$ 的前向计算的所有可能输入区域（可能大于输入的实际尺寸）叫做 $x$ 的感受野（receptive field）。

以图1为例，输入中阴影部分的四个元素是输出中阴影部分元素的感受野。我们将图中形状为 $2 \times 2$ 的输出记为 $Y$ ，将 $Y$ 与另一个形状为 $2 \times 2$ 的核数组做互相关运算，输出单个元素 $z$ 。那么， $z$ 在 $Y$ 上的感受野包括 $Y$ 的全部四个元素，在输入上的感受野包括其中全部9个元素。可见，我们可以通过更深的卷积神经网络使特征图中单个元素的感受野变得更加广阔，从而捕捉输入上更大尺寸的特征。

填充和步幅

填充（padding）是指在输入高和宽的两侧填充元素（通常是0元素），图2里我们在原输入高和宽的两侧分别添加了值为0的元素。
卷积神经网络基础
如果原输入的高和宽是 $n_h$ 和 $n_w$ ，卷积核的高和宽是 $k_h$ 和 $k_w$ ，在高的两侧一共填充 $p_h$ 行，在宽的两侧一共填充 $p_w$ 列，则输出形状为：

我们在卷积神经网络中使用奇数高宽的核，比如 $3 \times 3$ ， $5 \times 5$ 的卷积核，对于高度（或宽度）为大小为 $2 k + 1$ 的核，令步幅为1，在高（或宽）两侧选择大小为 $k$ 的填充，便可保持输入与输出尺寸相同。

步幅：
卷积神经网络基础

多输入通道和多输出通道

之前的输入和输出都是二维数组，但真实数据的维度经常更高。例如，彩色图像在高和宽2个维度外还有RGB（红、绿、蓝）3个颜色通道。假设彩色图像的高和宽分别是 $h$ 和 $w$ （像素），那么它可以表示为一个 $3 \times h \times w$ 的多维数组，我们将大小为3的这一维称为通道（channel）维。
多输入通道：
卷积神经网络基础
分别与核进行互相关运算，最后得到的输出相加

多输出通道：
卷积层的输出也可以包含多个通道，设卷积核输入通道数和输出通道数分别为 $c_i$ 和 $c_o$ ，高和宽分别为 $k_h$ 和 $k_w$ 。如果希望得到含多个通道的输出，我们可以为每个输出通道分别创建形状为 $c_i\times k_h\times k_w$ 的核数组，将它们在输出通道维上连结，卷积核的形状即 $c_o\times c_i\times k_h\times k_w$ 。