问题归纳与要点整理------ALEX《深度卷积网络的图片分类》

alex的《ImageNet Classification with Deep Convolutional Neural Networks》相信大家都读过,博主也是刚刚入门,话不多说,一起来学习一下,分析一下文中出现的不一懂的部分。
作者之前也弄过一篇ppt,但是还是没有真正理解点这里
当然了,首先介绍一下,作者alex的alexnet的贡献:
祖师爷Hinton 带领的小组经典之作,深度学习开山祖师 Hinton率领的谷歌团队多次夺冠 ,主力成员为 hinton 在多伦多大学的学生 Alex Krizhevsky , Ilya Sutskever , 因此他们的解决方案也叫alexnet , 这篇文章是hinton大神团队的代表性之作,CNN (卷积神经网络)已经成为图像识别处理的标准,alexnet作为CNN的代表性方案基础,开创性的GPU计算卷积 , 仿生视觉细胞的局部感受野等手段解决了图像处理的难题, 和同期的VGG、ResNet、GoogleNet等比肩,使得图像识别成为了人工智能的最成功领域。

什么是局部响应归一化

什么是隐藏层

什么是特征向量

文中的总体构架的理解

  • 什么是局部响应归一化
    问题归纳与要点整理------ALEX《深度卷积网络的图片分类》
  • 正则化什么意思
    正则化(Regularization)、归一化(也有称为正规化/标准化,Normalization)是对数据尽心预处理的方式,他们的目的都是为了让数据更便于我们的计算或获得更加泛化的结果,但并不改变问题的本质
    参考这里
  • 文中的梯度下降法公式
    这是文中出现的随机梯度下降法公式
    问题归纳与要点整理------ALEX《深度卷积网络的图片分类》
    这是博主自己论文里写的梯度下降法公式
    我在我的这篇博客里也有介绍
    问题归纳与要点整理------ALEX《深度卷积网络的图片分类》

什么是隐藏层
答:综合而言,除了输入层和输出层之间的叫隐藏层也叫隐层、隐含层(hidden)
这里介绍比较详细

  • 什么是特征向量
    **答:所有的特征被抽取出来后,放到一个向量里面,叫特征向量
  • 文中的总体构架的理解
    问题归纳与要点整理------ALEX《深度卷积网络的图片分类》
    ** 第1卷积层使用96个核对224 × 224 × 3的输入图像进行滤波,核大小为11 × 11 × 3,步长是4个像素(核映射中相邻神经元感受野中心之间的距离)。第2卷积层使用用第1卷积层的输出(响应归一化和池化)作为输入,并使用256个核进行滤波,核大小为5 × 5 × 48。第3,4,5卷积层互相连接,中间没有接入池化层或归一化层。第3卷积层有384个核,核大小为3 × 3 × 256,与第2卷积层的输出(归一化的,池化的)相连。第4卷积层有384个核,核大小为3 × 3 × 192,第5卷积层有256个核,核大小为3 × 3 × 192。每个全连接层有4096个神经元。**

要点整理

  1. CNN中的池化层归纳了同一核映射上相邻组神经元的输出
  2. 数据增强
  • 第一种数据增强方式包括产生图像变换和水平翻转
  • 第二种数据增强方式包括改变训练图像的RGB通道的强度
  1. 失活(Dropout)
  • 它会以0.5的概率对每个隐层神经元的输出设为0

作者做出的调整

对所有的层使用相等的学习率,这个是在整个训练过程中我们手动调整得到的。当验证误差在当前的学习率下停止提供时,我们遵循启发式的方法将学习率除以10。学习率初始化为0.01,在训练停止之前降低三次。我们在120万图像的训练数据集上训练神经网络大约90个循环,在两个NVIDIA GTX 580 3GB GPU上花费了五到六天。