1.全连接层反向传播

设 $C$ 为loss
全连接层输入：(bottom_data) $a$
全连接层输出：(top_data) $z$
假设 $a$ 维度K_， $z$ 维度N_，则权值矩阵维度为N_行*K_列，batchsize=M_
全连接层每个输出 $z_{i} = b + \sum_{j} w_{i j} a_{j}$

1.1bottom_diff计算：

对bottom_data求导： $\frac{\partial C}{\partial a_{j}} = \sum_{i} \frac{\partial C}{\partial z_{i}} \cdot \frac{\partial z_{i}}{a_{j}} = \sum_{i} {z_{i}}^{'} w_{i j}$ （batchsize=1时）
当batchsize不为1时，需要分别获得各个样本下的结果，组成矩阵：
图文+代码分析：caffe中全连接层、Pooling层、Relu层的反向传播原理和实现
caffe实现：

1.2weight_diff计算：

对weight求导： $\frac{\partial C}{\partial w_{i j}} = \frac{\partial C}{\partial z_{i}} \cdot \frac{\partial z_{i}}{w_{i j}} = {z_{i}}^{'} a_{j}$
当batchsize不为1时，需要将各个样本下的结果进行求和：
图文+代码分析：caffe中全连接层、Pooling层、Relu层的反向传播原理和实现
caffe实现：

1.3bias_diff计算：

对bias进行求导： $\frac{\partial C}{\partial b} = \sum_{i} \frac{\partial C}{\partial z_{i}} \cdot \frac{\partial z_{i}}{b} = \sum_{i} {z_{i}}^{'}$ （batchsize=1时）
当batchsize不为1时，需要分别获得各个样本下的结果，组成向量：
图文+代码分析：caffe中全连接层、Pooling层、Relu层的反向传播原理和实现
caffe实现：

2.Pooling层反向传播

2.1 Max Pooling:

图文+代码分析：caffe中全连接层、Pooling层、Relu层的反向传播原理和实现
首先，在前向传播时，在输出新的feature map的同时，还要记录每个输出点对应于前一层feature map中的位置，放入mask或者top_mask中（top_mask是指，该mask存放在top_data里当作输出的一部分）
max pooling 前向传播caffe实现：
图文+代码分析：caffe中全连接层、Pooling层、Relu层的反向传播原理和实现
在反向传播时：将top_diff按照记录下来的index返回到输入层中，即只对前向传播时选中的一些位置进行误差传播，如下图：

max pooling 反向传播caffe实现：
图文+代码分析：caffe中全连接层、Pooling层、Relu层的反向传播原理和实现

2.2 Average Pooling

前向传播较简单，block内数值的平均值作为输出，每个输出值对应固定的输入block，如图：
图文+代码分析：caffe中全连接层、Pooling层、Relu层的反向传播原理和实现
反向传播，将输出层各个位置的梯度，平均分配到其对应的输入block中，如图：

average pooling 反向传播caffe实现：