深度学习之卷积网络的层级结构

图片来自
http://blog.****.net/han_xiaoyang/article/details/50542880
七月算法课程
http://blog.****.net/woaidapaopao/article/details/77806273
http://blog.****.net/qq_29133371/article/details/51867856

数据输入层/ Input layer

有3种常见的图像数据处理方式

去均值
把输入数据各个维度都中心化到0

归一化
幅度归一化到同样的范围

PCA/白化
用PCA 降维
白化是对数据每个特征轴上的幅度归一化

卷积计算层/ CONV layer

局部关联。每个神经元看做一个filter。

窗口(receptive field)滑动， filter对局部数据计算

demo网址:http://cs231n.github.io/assets/conv-demo/index.html

深度/depth

指的就是卷积层中和上一层同一个输入区域连接的神经元个数。这部分神经元会在遇到输入中的不同feature时呈现activate状态，举个例子，如果这是第一个卷积层，那输入到它的数据实际上是像素值，不同的神经元可能对图像的边缘。轮廓或者颜色会敏感。
步长/stride demo

是指的窗口从当前位置到下一个位置，『跳过』的中间数据个数。比如从图像数据层输入到卷积层的情况下，也许窗口初始位置在第1个像素，第二个位置在第5个像素，那么stride=5-1=4.

填充值/zero-padding

所谓zero-padding是在原始数据的周边补上0值的圈数。

固定每个神经元连接权重，可以看做模板
每个神经元只关注一个特性
需要估算的权重个数减少: AlexNet 1亿 => 3.5w
一组固定的权重和不同窗口内数据做内积: 卷积

池化层 / Pooling layer

夹在连续的卷积层中间
压缩数据和参数的量，减小过拟合

简单说来，在卷积神经网络中，Pooling层是夹在连续的卷积层中间的层。它的作用也非常简单，就是**逐步地压缩/减少数据和参数的量，也在一定程度上减小过拟合的现象。**Pooling层做的操作也非常简单，就是将原数据上的区域压缩成一个值(区域最大值/MAX或者平均值/AVERAGE)，最常见的Pooling设定是，将原数据切成2*2的小块，每块里面取最大值作为输出，这样我们就自然而然减少了75%的数据量。需要提到的是，除掉MAX和AVERAGE的Pooling方式，其实我们也可以设定别的pooling方式，比如L2范数pooling。说起来，历史上average pooling用的非常多，但是近些年热度降了不少，工程师们在实践中发现max pooling的效果相对好一些。

全连接层 / FC layer

两层之间所有神经元都有权重连接
通常全连接层在卷积神经网络尾部

归一化层(Normalization Layer)

卷积神经网络里面有时候会用到各种各样的归一化层，尤其是早期的研究，经常能见到它们的身影，不过近些年来的研究表明，似乎这个层级对最后结果的帮助非常小，所以后来大多数时候就干脆拿掉了。

激励层(ReLU)

把卷积层输出结果做非线性映射

Sigmoid
Tanh(双曲正切)
ReLU
Leaky ReLU
ELU
Maxout

梯度消失：这本质上是由于**函数的选择导致的，最简单的sigmoid函数为例，在函数的两端梯度求导结果非常小（饱和区），导致后向传播过程中由于多次用到**函数的导数值使得整体的乘积梯度结果变得越来越小，也就出现了梯度消失的现象。
梯度爆炸：同理，出现在**函数处在**区，而且权重W过大的情况下。但是梯度爆炸不如梯度消失出现的机会多。