【深度学习】cs231n计算机视觉 CNN(卷积神经网络)

CNN(卷积神经网络)理论知识

完成课程笔记:Convolutional Neural Networks for Visual Recognition的理解,便于实现CNN~

1. 结构概述

卷积神经网络是由层组成的。每一层都有一个简单的API:用一些含或者不含参数的可导的函数,将输入的3D数据变换为3D的输出数据。

2. 用来构建卷积神经网络的各种层

卷积层

卷积运算本质上就是在滤波器和输入数据的局部区域间做点积。过程理解如下:
【深度学习】cs231n计算机视觉 CNN(卷积神经网络)

池化层

作用是逐渐降低数据体的空间尺寸,这样的话就能减少网络中参数的数量,使得计算资源耗费变少,也能有效控制过拟合。

归一化层
全连接层

在全连接层中,神经元对于前一层中的所有**数据是全部连接的,这个常规神经网络中一样。它们的**可以先用矩阵乘法,再加上偏差。

将全连接层转化为卷积层

举个例子,如果我们想让224x224尺寸的浮窗,以步长为32在384x384的图片上滑动,把每个经停的位置都带入卷积网络,最后得到6x6个位置的类别得分。上述的把全连接层转换成卷积层的做法会更简便。如果224x224的输入图片经过卷积层和汇聚层之后得到了[7x7x512]的数组,那么,384x384的大图片直接经过同样的卷积层和汇聚层之后会得到[12x12x512]的数组(因为途径5个汇聚层,尺寸变为384/2/2/2/2/2 = 12)。然后再经过上面由3个全连接层转化得到的3个卷积层,最终得到[6x6x1000]的输出(因为(12 - 7)/1 + 1 = 6)。这个结果正是浮窗在原图经停的6x6个位置的得分!

面对384x384的图像,让(含全连接层)的初始卷积神经网络以32像素的步长独立对图像中的224x224块进行多次评价,其效果和使用把全连接层变换为卷积层后的卷积神经网络进行一次前向传播是一样的。

3. 卷积神经网络的结构

层的排列规律

最常见的卷积神经网络结构如下:

INPUT -> [[CONV -> RELU]xN -> POOL?]xM -> [FC -> RELU]xK -> FC
其中x指的是重复次数,POOL?指的是一个可选的汇聚层。其中N >=0,通常N<=3,M>=0,K>=0,通常K<3。

  • 直观说来,最好选择带有小滤波器的卷积层组合,而不是用一个带有大的滤波器的卷积层。前者可以表达出输入数据中更多个强力特征,使用的参数也更少。唯一的不足是,在进行反向传播时,中间的卷积层可能会导致占用更多的内存。
层的尺寸设置规律
  • 输入层(包含图像的)应该能被2整除很多次。常用数字包括32(比如CIFAR-10),64,96(比如STL-10)或224(比如ImageNet卷积神经网络),384和512。
  • 卷积层应该使用小尺寸滤波器(比如3x3或最多5x5),使用步长S = 1。还有一点非常重要,就是对输入数据进行零填充,这样卷积层就不会改变输入数据在空间维度上的尺寸。比如,当F = 3,那就使用P = 1来保持输入尺寸。当F = 5,P = 2,一般对于任意F,当P = (F - 1)/2的时候能保持输入尺寸。如果必须使用更大的滤波器尺寸(比如7x7之类),通常只用在第一个面对原始图像的卷积层上。
  • 为何使用零填充?使用零填充除了前面提到的可以让卷积层的输出数据保持和输入数据在空间维度的不变,还可以提高算法性能。如果卷积层值进行卷积而不进行零填充,那么数据体的尺寸就会略微减小,那么图像边缘的信息就会过快地损失掉。
经典例子(LeNet、AlexNet、ZFNet、GooLeNet、VGGNet)
计算上的考量

在构建卷积神经网络结构时,最大的瓶颈是内存瓶颈。大部分现代GPU的内存是3/4/6GB,最好的GPU大约有12GB的内存。要注意三种内存占用来源:

  • 来自中间数据体尺寸:卷积神经网络中的每一层中都有**数据体的原始数值,以及损失函数对它们的梯度(和**数据体尺寸一致)。通常,大部分**数据都是在网络中靠前的层中(比如第一个卷积层)。在训练时,这些数据需要放在内存中,因为反向传播的时候还会用到。但是在测试时可以聪明点:让网络在测试运行时候每层都只存储当前的**数据,然后丢弃前面层的**数据,这样就能减少巨大的**数据量。
  • 来自参数尺寸:即整个网络的参数的数量,在反向传播时它们的梯度值,以及使用momentum、Adagrad或RMSProp等方法进行最优化时的每一步计算缓存。因此,存储参数向量的内存通常需要在参数向量的容量基础上乘以3或者更多。
  • 卷积神经网络实现还有各种零散的内存占用,比如成批的训练数据,扩充的数据等等。

CNN(卷积神经网络)代码部分

1. 全连接神经网络

2. 卷积神经网络