基础网络研究 VGG

主要突破：用小的3x3过滤器将卷积网络深度推进到16-19层

结构：
1.输入：固定224 x 224 大小的RGB图像
唯一预处理是从每个像素中减去在训练集上计算的平均RGB值
2.将图像通过一堆卷积层，用3x3过滤器
3.在某个层中使用1x1卷积过滤器（可看做是对输入图像通道的线性转换）
4.对卷积层输入进行空间填充使得在卷积之后保留一定空间分辨率，即，对于3×3层，填充是1个像素。（same-padding）
5.空间池化：5个max-pooling（2x2过滤器和步长为2）
6.一堆卷积层跟着是三个全连接层：
1）前两个FC层都有4096个通道
2）最后一个使用1000-ILSVRC分类器，包含1000个通道（对应每个类别），是一个softmax分类器
7.均使用ReLU非线性**函数
8.没有LRN层（取消了AlexNet的LRN操作）
具体结构如下：（构建了多个网络）

基础网络研究 VGG
A-E不同的只有深度不同：A是11层（8卷积加3全连接），E是19层（16卷积加3全连接）
max-pooling每次将通道数扩大一倍直至通道数达到512

特点：
1.用多个3x3卷积层代替单个高感受野的过滤器（如7x7,11x11），让图像通过多个ReLU函数，使输出更有判别力
2.减少了网络中的参数数量
3.1x1卷积层增加决策函数（**函数）的非线性而不影响感受域，相当于对输入做了一次线性投影再输出
4.通过使用具有动量的小批量梯度下降（基于反向传播）优化多项逻辑回归目标来执行训练。
批量：256，动量：0.9
5.权重衰减（L2惩罚设置为5x10的负4次方）
6.前两个全连接层使用dropout，设置比率为0.5
7.学习率初始设为0.01，当验证集中精度没有改善时，学习率降低10倍
8.初始化权重很重要（随机初始化）
9.为了增强训练集，随机裁剪得到固定尺寸的输入图像，再进行随机RGB转换，随机水平翻转
10.用了4个GPU训练
11.
基础网络研究 VGG

相关推荐