01论文笔记《ImageNet Classification with Deep Convolutional Neural Network》

基于卷积神经网络的图像分类

作者:Alex Krizhevsky、Ilya Sutskever、Geoffrey E.Hinton

单位:University of Toronto

赛事:Large Scale Visual Recognition Challenge (ILSVRC)

赛事介绍:Large Scale Visual Recognition Challenge (ILSVRC)即ImageNet比赛。

(ILSVRC)evaluates algorithms for object detection and image classification at large scale.

为了评估大规模对象检测和图像分类的算法。

One high level motivation is to allow researchers to compare progress in detection across a wider variety of objects--taking advantage of the quite expensive labeling effort.

一种高等级的动机:使研究人员充分利用标记工作,比较各种对象的检测进展

Another motivation is to measure the progress of computer vision for large scale image indexing for retrieval and annotation.

另一种的动机:为了测量大规模图像索引检测和注解的计算机视觉进度。

01论文笔记《ImageNet Classification with Deep Convolutional Neural Network》

由于深度学习技术的日益发展,使得机器视觉在ILSVRC的比赛成绩屡创佳绩,其错误率已经低于人类视觉,若再继续举办类似比赛已无意义,是故大家对电脑视觉技术的期待由相当成熟的 image identification 转向尚待开发的 image understanding 。

ILSVRC 2017 已是最后一届举办。2018年起,将由WebVision竞赛(Challenge on Visual Understanding by Learning from Web Data)来接棒。WebVision所使用的dataset抓取自浩瀚的网络,不经过人工处理与label,难度大大提高,但也会更加贴近实际运用场景。

正是因为ILSVRC 2012挑战赛上的AlexNet横空出世,使得全球范围内掀起了一波深度学习热潮。这一年也被称作“深度学习元年”。此后,ILSVRC挑战赛的名次一直是衡量一个研究机构或企业技术水平的重要标尺。因此,即使ILSVRC挑战赛停办了,但其对深度学习的深远影响和巨大贡献,将永载史册。

历届冠军做法:

01论文笔记《ImageNet Classification with Deep Convolutional Neural Network》

【ImageNet

ImageNet 项目是一个用于物体对象识别检索大型视觉数据库。截止2016年,ImageNet 已经对超过一千万个图像进行手动注释,标记图像的类别。在至少一百万张图像中还提供了边界框。自2010年以来,ImageNet 举办一年一度的软件竞赛,叫做(ImageNet Large Scale Visual Recognition Challenge,ILSVRC)。主要内容是通过算法程序实现正确分类和探测识别物体与场景,评价标准就是Top-5 错误率。

摘要(abstract)

1.我们做了点啥:LSVRC-2010比赛中,训练了一个深度卷积神经网络,将120万张1000种不同类别的高像素图像进行分类;

2.成就:在测试数据集上,top-1和top-5的错误率分别为37.5%和17%;

Top-5错误率

即对一个图片,如果概率前五中包含正确答案,即认为正确。

Top-1错误率

即对一个图片,如果概率最大的是正确答案,才认为正确。

3.这个神经网络的规模:它具有6000万个参数和650,000个神经元,该神经网络由五个卷积层,其中一些有池化层,和三个全连接层且有1000-way的softmax回归模型组成;

4.优势:

4.1使用非饱和神经元和GPU加速加快训练速度

4.2并采用dropout正则化方法来减少全连接层中的过拟合

  • 介绍(introduction)

本文的主要贡献如下:训练了一个最大的卷积神经网络来训练在ILSVRC-2010和ILSVRC-2012中使用的ImageNet中的子集,并取得了迄今为止最好的结果。我们使用高度优化的GPU实现二维卷积和一些其他固有的方式来训练卷积神经网络,并将其公开。

在第3部分介绍了减少训练时间、提高性能的方法;

在第4部分介绍了减少过拟合的方法;

最后的神经网络由5个卷积层和3个全连接层,其深度至关重要,移除任意一个卷积层都会使结果表现不佳。

  • 数据集

1.比赛所采用的数据集:

1.1介绍imageNet:ImageNet数据集有超过1500万的标注高分辨率图像,这些图像属于大约22000个类别。这些图像是从网上收集的,使用了Amazon’s Mechanical Turk的众包工具通过人工标注的。

1.2从2010年起,作为Pascal视觉对象挑战赛的一部分,每年都会举办ImageNet大规模视觉识别挑战赛(ILSVRC)。

1.3使用真正的数据集:ILSVRC使用ImageNet的一个子集,1000个类别每个类别大约1000张图像。总计,大约120万训练图像,50000张验证图像和15万测试图像。

     2.比赛规则:

2.1 ILSVRC-2010是ILSVRC竞赛中唯一可以获得测试集标签的版本,因此我们大多数实验都是在这个版本上运行的。

2.2由于我们也使用我们的模型参加了ILSVRC-2012竞赛,因此在第六节我们也报告了模型在这个版本的数据集上的结果,这个版本的测试标签是不可获得的。

2.3在ImageNet上,按照惯例报告两个错误率:top-1和top-5,top-5错误率是指测试图像的正确标签不在模型认为的五个最可能的便签之中。

3.我们的系统要求:

ImageNet包含各种分辨率的图像,而我们的系统要求不变的输入维度。因此,我们将图像进行下采样到固定的256×256分辨率。给定一个矩形图像,我们首先缩放图像短边长度为256,然后从结果图像中裁剪中心的256×256大小的图像块。除了在训练集上对像素减去平均活跃度外,我们不对图像做任何其它的预处理。因此我们在原始的RGB像素值(中心的)上训练我们的网络。