对AlexNet的理解

AlexNet

一、总述

近代计算机视觉里程碑,ILSVRC2012分类竞赛冠军,ImageNet竞赛上第一次基于卷积神经网络模型得到冠军。AlexNet相对于LeNet,网络更深,有8层网络,使用11*11的卷积核或滤波器,有6000万个参数,65万个神经元。同时第一次引入ReLu**层,在全连接层中引入了Dropout层和Data Augmentation防止过拟合。网络结构复杂,因计算机量大,GPU计算力不够,所以使用2个GPU。
论文:Imagenet classification with deep convolutional netural networks.

二、学习目标

对AlexNet的理解

三、对ImageNet与ILSVRC介绍

1、分类问题常用数据集

类别 训练数据 测试数据 图片格式
Mnist(分辨率28*28) 10 50000 10000 Gray
Cifar-10(分辨率32*32) 10 50000 10000 RGB
ILSVRC(分辨率几百*几百) 1000 1200000 150000 GGB

2、ILSVRC

大规模图像识别挑战赛,覆盖图像分类、定位、检测、视频目标检测等。top-1 error和top-5 error(预测前5个类型,如果含有groundtruth类别,不做惩罚)。

对AlexNet的理解

3、ImageNet与ILSVRC

ImageNet数据集包含21841个类别,14197122张图片;从中挑选1000类的120000张作为训练集。

四、模型结构

1、网络结构

8层结构,含5层卷积组和3层全连接层。GPU连接:2、4、5层与前面对应GPU连接,3层与所有GPU连接,实现信息交换;LRN:只在1、2层出现;Max_pooling:只在1、2、5层出现;ReLU:在所有卷积层和全连接层出现。
注:输入层图片大小2242243或2272273,不影响卷积后图片大小,均为55*55。
对AlexNet的理解

图1 AlexNet的8层结构

对AlexNet的理解

图2 AlexNet的8层结构直观图

对AlexNet的理解

图3 AlexNet的8层结构参数计算

2、ReLu

引入非饱和**函数,比饱和**函数训练收敛快。

3、LRN(Local Response Normalization)–局部响应标准化

有助于网络泛化能力提升,对相邻神经元有侧抑制作用。目前有batch normalization,基本不用这个技术。

4、Overlapping pooling–待重叠池化

一般pooling中,通常使用Max pooling或Average pooling,步长stride与卷积核kernal大小一致(s=z)。如果s<z,就会出现重叠情况。

5、双GPU

提升算力

五、训练技巧(减轻过拟合)

1、Data Augment

通过图片裁剪和图片颜色变换。

2、DropOut

随机减少神经元。

六、启发点

1、深度与宽度可决定网络能力
2、更强大GPU及更多数据可进一步提高模型特性
3、图片缩放细节,对短边先缩放(防止出现短边缺失)
4、ReLU不需要对输入进行标准化来防止饱和现象,sigmoid和tanh有必要对输入进行标准化
5、卷积核学习到频率、方向和颜色特性
6、相似图片具有相近的高级特性
7、层数越高,越抽象
8、图像检索可基于高级特征,效果应优于原始图像
9、网络结构具有相关性,不可轻易移除某一层
10、采用视频数据,有时间序列,可能有新突破

七、问题

1、什么时候用LRN和Max pooling,层次的确定?
2、stride、padding、kernal的多少和大小,为什么这样写?