AlexNet

一、总述

近代计算机视觉里程碑，ILSVRC2012分类竞赛冠军，ImageNet竞赛上第一次基于卷积神经网络模型得到冠军。AlexNet相对于LeNet，网络更深，有8层网络，使用11*11的卷积核或滤波器，有6000万个参数，65万个神经元。同时第一次引入ReLu**层，在全连接层中引入了Dropout层和Data Augmentation防止过拟合。网络结构复杂，因计算机量大，GPU计算力不够，所以使用2个GPU。
论文：Imagenet classification with deep convolutional netural networks.

二、学习目标

对AlexNet的理解

三、对ImageNet与ILSVRC介绍

1、分类问题常用数据集

	类别	训练数据	测试数据	图片格式
Mnist（分辨率28*28）	10	50000	10000	Gray
Cifar-10（分辨率32*32）	10	50000	10000	RGB
ILSVRC（分辨率几百*几百）	1000	1200000	150000	GGB

2、ILSVRC

大规模图像识别挑战赛，覆盖图像分类、定位、检测、视频目标检测等。top-1 error和top-5 error（预测前5个类型，如果含有groundtruth类别，不做惩罚）。

对AlexNet的理解

3、ImageNet与ILSVRC

ImageNet数据集包含21841个类别，14197122张图片；从中挑选1000类的120000张作为训练集。

四、模型结构

1、网络结构

8层结构，含5层卷积组和3层全连接层。GPU连接：2、4、5层与前面对应GPU连接，3层与所有GPU连接，实现信息交换；LRN：只在1、2层出现；Max_pooling：只在1、2、5层出现；ReLU：在所有卷积层和全连接层出现。
注：输入层图片大小2242243或2272273，不影响卷积后图片大小，均为55*55。
对AlexNet的理解

图1 AlexNet的8层结构

对AlexNet的理解

图2 AlexNet的8层结构直观图

对AlexNet的理解

图3 AlexNet的8层结构参数计算

2、ReLu

引入非饱和**函数，比饱和**函数训练收敛快。

3、LRN（Local Response Normalization）–局部响应标准化

有助于网络泛化能力提升，对相邻神经元有侧抑制作用。目前有batch normalization，基本不用这个技术。

4、Overlapping pooling–待重叠池化

一般pooling中，通常使用Max pooling或Average pooling，步长stride与卷积核kernal大小一致（s=z）。如果s<z，就会出现重叠情况。

5、双GPU

提升算力

五、训练技巧（减轻过拟合）

1、Data Augment

通过图片裁剪和图片颜色变换。

2、DropOut

随机减少神经元。

六、启发点

1、深度与宽度可决定网络能力
2、更强大GPU及更多数据可进一步提高模型特性
3、图片缩放细节，对短边先缩放（防止出现短边缺失）
4、ReLU不需要对输入进行标准化来防止饱和现象，sigmoid和tanh有必要对输入进行标准化
5、卷积核学习到频率、方向和颜色特性
6、相似图片具有相近的高级特性
7、层数越高，越抽象
8、图像检索可基于高级特征，效果应优于原始图像
9、网络结构具有相关性，不可轻易移除某一层
10、采用视频数据，有时间序列，可能有新突破

七、问题

1、什么时候用LRN和Max pooling，层次的确定?
2、stride、padding、kernal的多少和大小，为什么这样写？

对AlexNet的理解

AlexNet

一、总述

二、学习目标

三、对ImageNet与ILSVRC介绍

1、分类问题常用数据集

2、ILSVRC

3、ImageNet与ILSVRC

四、模型结构

1、网络结构

2、ReLu

3、LRN（Local Response Normalization）–局部响应标准化

4、Overlapping pooling–待重叠池化

5、双GPU

五、训练技巧（减轻过拟合）

1、Data Augment

2、DropOut

六、启发点

七、问题

相关推荐