CNN卷积层和pooling层的前向传播和反向传播

本文只包含CNN的前向传播和反向传播，主要是卷积层和pool层的前向传播和反向传播，一些卷积网络的基础知识不涉及

符号表示

如果 $l$ 层是卷积层：

$p^{[l]}$ : padding
$s^{[l]}$ : stride
$n_{c}^{[l]}$ : number of filters

fliter size: $k_{1}^{[l]} \times k_{2}^{[l]} \times n_{c}^{[l - 1]}$
==Weight: $W^{[l]}$ size is $k_{1}^{[l]} \times k_{2}^{[l]} \times n_{c}^{l - 1} \times n_{c}^{l}$
==bais==: $b^{[l]}$ size is $n_{c}^{[l]}$
==liner==: $z^{[l]}$ ,size is $n_{h}^{[l]} \times n_{w}^{[l]} \times n_{c}^{[l]}$
==Activations==: $a^{[l]}$ size is $n_{h}^{[l]} \times n_{w}^{[l]} \times n_{c}^{[l]}$

==input==: $a^{[l - 1]}$ size is $n_{h}^{[l - 1]} \times n_{w}^{[l - 1]} \times n_{c}^{[l - 1]}$
==output==: $a^{[l]}$ size is $n_{h}^{[l]} \times n_{w}^{[l]} \times n_{c}^{[l]}$

$n_{h}^{[l]}$ 和 $n_{h}^{[l - 1]}$ 两者满足：

n_{h}^{[l]} (s^{[l]} - 1) + f_{1}^{[l]} ⩽ n_{h}^{[l - 1]} + 2 p

n_{h}^{[l]} = ⌊ \frac{n_{h}^{[l - 1]} + 2 p - k_{1}^{[l]}}{s} + 1 ⌋

符号

⌊ x ⌋

表示向下取整，

n_{w}^{[l]}

和

n_{w}^{[l - 1]}

两者关系同上

CNN卷积层和pooling层的前向传播和反向传播

Cross-correlation与Convolution

很多文章或者博客中把Cross-correlation(互相关)和Convolution(卷积)都叫卷积，把互相关叫做翻转的卷积，在我个人的理解里面两者是有区别的，本文将其用==两种表达式分开表示==，不引入翻转180度。

Cross-correlation

对于大小为 $h \times w$ 图像 $I$ 和大小为 $(k_{1} \times k_{2})$ kernel $K$ ,定义其Cross-correlation：

(I \otimes K)_{i j} = \sum_{m = 0}^{k_{1} - 1} \sum_{n = 0}^{k_{2}} I (i + m, j + n) K (m, n)

其中

0 ⩽ i ⩽ h - k_{1} + 1

0 ⩽ j ⩽ w - k_{2} + 1

注意这里的使用的符号和 $i$ 的范围，不考虑padding的话Cross-correlation会产生一个较小的矩阵

CNN卷积层和pooling层的前向传播和反向传播

Convolution

首先回顾一下连续函数的卷积和一维数列的卷积分别如下，卷积满足交换律：

h (t) = \int_{- \infty}^{\infty} f (τ) g (t - τ) d τ

c (i) = \sum_{i = - \infty}^{\infty} a (i) b (n - i) d i

对于大小为 $h \times w$ 图像 $I$ 和大小为 $(k_{1} \times k_{2})$ kernel $K$ ,convolution为 :

(I * K)_{i j} = (K * I)_{i j} = \sum_{m = 0}^{k_{1} - 1} \sum_{n = 0}^{k_{2} - 1} I (i - m, j - n) k (m, n)

\begin{aligned} 0 ⩽ i ⩽ h + k_{1} - 1 \\ 0 ⩽ j ⩽ w + k_{2} - 1 \end{aligned}

注意：这里的Convolution和前面的cross-correlation是不同的:
1. $i, j$ 范围变大了，卷积产生的矩阵size变大了
2. 这里出现了很多 $I (- x, - y)$ ,这些负数索引可以理解成padding
3. 这里的卷积核会翻转180度
具体过程如下图所示

CNN卷积层和pooling层的前向传播和反向传播

如果把卷积的padding项扔掉那么就变成下图这样，此时Convolution和Cross-correlation相隔的就是一个180度的翻转，如下图所示

CNN卷积层和pooling层的前向传播和反向传播

卷积核旋转180度
参考自卷积核翻转方法
翻转卷积核有三种方法，具体步骤移步卷积核翻转方法
1. 围绕卷积核中心旋转180度（奇数行列好使）

沿着两条对角线翻转两次
同时翻转行和列（偶数行列好使）

前向传播

卷积层

前向传播：计算 $z^{[l]}$ 和 $a^{[l]}$

输入： $a^{[l - 1]}$ size is $n_{h}^{[l - 1]} \times n_{w}^{[l - 1]} \times n_{c}^{[l - 1]}$

输出： $a^{[l]}$

为了方便后续的反向传播的方便，只讨论 $l$ 层的参数，把部分上标 $[l]$ 去掉，同时另 $n_{c}^{[l]} = n_{c}^{[l - 1]} = 1$ ，前向传播公式如下：

\begin{aligned} z^{l} (i, j) = & \sum_{m = 0}^{k_{1} - 1} \sum_{n = 0}^{k_{2} - 1} a_{i + m, j + n}^{l - 1} \times w_{m, n} + b \\ a^{l} = & g (z^{l}) \end{aligned}

虑通道和padding的前向传播

pooling层

pooling层进行下采样，maxpool可以表示为：

a^{l} (i, j) = max_{0 ⩽ m ⩽ k_{1} - 1, 0 ⩽ n ⩽ k_{2} - 1} (a^{l - 1} (i * k_{1} + m, j * k_{2} + n))

avepool可以表示为：

a^{l} (i, j) = \frac{1}{k_{1} \times k_{2}} \sum_{m = 0}^{k_{1} - 1} \sum_{n = 0}^{k_{2} - 1} a^{l - 1} (i * k_{1} + m, j * k_{2} + n)

CNN卷积层和pooling层的前向传播和反向传播

反向传播

卷积层的反向传播

1. 已知 $\frac{\partial E}{\partial z^{l}}$ 求 $\frac{\partial E}{\partial w^{l}}$

CNN卷积层和pooling层的前向传播和反向传播

由上图可知 $W$ 对每一个元素都有贡献，（偷来的图，用的符号不一致），使用链式法则有：

\frac{\partial E}{\partial w_{m^{'}, n^{'}}^{l}} = \sum_{i = 0}^{n_{h}^{l} - 1} \sum_{j = 0}^{n_{w}^{l} - 1} \frac{\partial E}{\partial z_{i, j}^{l}} \frac{\partial z_{i, j}^{l}}{\partial w_{m^{'}, n^{'}}^{l}}

\frac{\partial z_{i, j}^{l}}{\partial w_{m^{'}, n^{'}}^{l}} = \frac{\partial (\sum_{m = 0}^{k_{1} - 1} \sum_{n = 0}^{k_{2} - 1} a_{i + m, j + n}^{l - 1} \times w_{m, n} + b)}{\partial w_{m^{'}, n^{'}}^{l}} = a_{i + m^{'}, j + n^{'}}^{l - 1}

记 $δ_{i, j}^{l} = \frac{\partial E}{\partial z_{i, j}^{l}}$ ，有：

\begin{aligned} \frac{\partial E}{\partial w_{m^{'}, n^{'}}^{l}} = & \sum_{i = 0}^{n_{h}^{l} - 1} \sum_{j = 0}^{n_{w}^{l} - 1} a_{i + m^{'}, j + n^{'}}^{l - 1} δ_{i, j}^{l} \\ \frac{\partial E}{\partial w^{l}} = & a^{l} \otimes δ^{l} \end{aligned}

2. 根据 $\frac{\partial E}{\partial z^{l}}$ 求 $\frac{\partial E}{\partial z^{l - 1}}$

CNN卷积层和pooling层的前向传播和反向传播

上图是偷来的图，把那边的 $X^{l}$ ,当成 $z^{l}$ 理解，与 $z_{i^{'}, j^{'}}^{l - 1}$
有关的 $a_{i, j}^{l - 1}$ ，索引是从 $(i^{'} - k_{1} + 1, j^{'} - k_{2} + 1)$ 到 $(i^{'}, j^{'})$ （出现负值或者是越界当成是padding），根据链式法则：

\frac{\partial E}{\partial z_{i^{'}, j^{'}}^{l - 1}} = \sum_{m = 0}^{k_{1} - 1} \sum_{n = 0}^{k_{2} + 1} \frac{\partial E}{\partial z_{i^{'} - m, j^{'} - n}^{l}} \frac{\partial z_{i^{'} - m, j^{'} - n}^{l}}{\partial z_{i^{'}, j^{'}}^{l - 1}}

将 $\frac{\partial z_{i^{'} - m, j^{'} - n}^{l}}{\partial z_{i^{'}, j^{'}}^{l - 1}}$ 展开有：

\frac{\partial z_{i^{'} - m, j^{'} - n}^{l}}{\partial z_{i^{'}, j^{'}}^{l - 1}} = \frac{\partial \sum_{s = 0}^{k_{1} - 1} \sum_{t = 0}^{k_{2} + 1} z_{i^{'} - m + s, j^{'} - n + t}^{l - 1} w_{s, t}^{l}}{\partial z_{i^{'}, j^{'}}^{l - 1}} = w_{m, n}^{l}

从而可以得到：

\begin{aligned} \frac{\partial E}{\partial z_{i^{'}, j^{'}}^{l - 1}} = & \sum_{m = 0}^{k_{1} - 1} \sum_{n = 0}^{k_{2} + 1} \frac{\partial E}{\partial z_{i^{'} - m, j^{'} - n}^{l}} w_{m, n}^{l} \\ = & \sum_{m = 0}^{k_{1} - 1} \sum_{n = 0}^{k_{2} + 1} δ_{i^{'} - m, j^{'} - n}^{l} w_{m, n}^{l} \\ = & δ^{l} * W^{l} \end{aligned}

这里的 $*$ 代表是卷积操作

pooling层的反向传播

pooling层的反向传播比较简，没有要训练的参数

CNN卷积层和pooling层的前向传播和反向传播

maxpool，最大的那个为1其他的均为0：

\begin{aligned} \frac{\partial E}{\partial a_{i^{'}, j^{'}}^{l - 1}} = 1 i f (i^{'}, j^{'}) = \arg (max_{⌊ \frac{i}{k_{1}} ⌋ k_{1} ⩽ i ⩽ ⌊ \frac{i}{k_{1}} ⌋ - 1, ⌊ \frac{j}{k_{2}} ⌋ k_{2} ⩽ j ⩽ ⌊ \frac{j}{k_{2}} ⌋ - 1} (a_{i, j}^{l - 1})) \\ \frac{\partial E}{\partial a_{i^{'}, j^{'}}^{l - 1}} = 0 e l s e \end{aligned}

avepool，每个都是

\frac{\partial E}{\partial a_{i^{'}, j^{'}}^{l - 1}} = \frac{1}{k_{1} \times k_{2}}

附

考虑多个通道

用 $z_{c^{[l]}}^{[l]}$ 表示 $z^{[l]}$ 的第 $c^{[l]}$ 个channel：

\begin{aligned} z_{c^{[l]}}^{[l]} (i, j) = \sum_{c^{[l - 1]} = 0}^{n_{c}^{l - 1} - 1} (a_{c^{[l - 1]}}^{[l - 1]} \otimes W_{c^{[l - 1]}, c^{[l]}}^{[l]}) + b_{c^{[l]}}^{[l]} \\ = \sum_{c^{[l - 1]} = 0}^{n_{c}^{l - 1} - 1} (\sum_{m = 0}^{f^{[l]} - 1} \sum_{n = 0}^{f^{[l]} - 1} a_{c^{[l - 1]}}^{[l - 1]} (i + m, j + n) \times W_{c^{[l - 1]}, c^{[l]}}^{[l]} (m, n)) + b_{c^{l}}^{[l]} \end{aligned}

其中， $W_{c^{[l - 1]}, c^{[l]}}^{[l]}$ 为 $f^{[l]} \times f^{[l]}$ 的卷积核 $W_{c^{[l - 1]}, c^{[l]}}^{[l]} = W^{[l]} (:, :, c^{[l - 1]}, c^{[l]})$

a_{c^{[l]}}^{[l]} = g (z_{c^{[l]}}^{[l]})

$g (x)$ 为**函数

考虑padding和stride情况下：

z_{c^{[l]}}^{[l]} (i, j) = \sum_{c^{[l - 1]} = 0}^{n_{c}^{l - 1} - 1} (\sum_{m = 0}^{f^{[l]} - 1} \sum_{n = 0}^{f^{[l]} - 1} a^{[l - 1]} (i * s + m - p, j * s + n - p, c^{[l - 1]}) \times W^{[l]} (m, n, c^{[l - 1]}, c^{[l]})) + b_{c^{l}}^{[l]}

a_{c^{[l]}}^{[l]} = g (z_{c^{[l]}}^{[l]})

$a^{[l]}$ 索引越界部分表示padding，其值为0

CNN卷积层和pooling层的前向传播和反向传播

符号表示

Cross-correlation与Convolution

Cross-correlation

Convolution

前向传播

卷积层

pooling层

反向传播

卷积层的反向传播

pooling层的反向传播

附

相关推荐