基础网络研究 VGG

主要突破:用小的3x3过滤器将卷积网络深度推进到16-19层

结构:
1.输入:固定224 x 224 大小的RGB图像
唯一预处理是从每个像素中减去在训练集上计算的平均RGB值
2.将图像通过一堆卷积层,用3x3过滤器
3.在某个层中使用1x1卷积过滤器(可看做是对输入图像通道的线性转换)
4.对卷积层输入进行空间填充使得在卷积之后保留一定空间分辨率,即,对于3×3层,填充是1个像素。(same-padding)
5.空间池化:5个max-pooling(2x2过滤器 和步长为2)
6.一堆卷积层跟着是三个全连接层:
1)前两个FC层都有4096个通道
2)最后一个使用1000-ILSVRC分类器,包含1000个通道(对应每个类别),是一个softmax分类器
7.均使用ReLU非线性**函数
8.没有LRN层(取消了AlexNet的LRN操作)
具体结构如下:(构建了多个网络)

基础网络研究 VGG
A-E不同的只有深度不同:A是11层(8卷积加3全连接),E是19层(16卷积加3全连接)
max-pooling每次将通道数扩大一倍直至通道数达到512

特点:
1.用多个3x3卷积层代替单个高感受野的过滤器(如7x7,11x11),让图像通过多个ReLU函数,使输出更有判别力
2.减少了网络中的参数数量
3.1x1卷积层增加决策函数(**函数)的非线性而不影响感受域,相当于对输入做了一次线性投影再输出
4.通过使用具有动量的小批量梯度下降(基于反向传播)优化多项逻辑回归目标来执行训练。
批量:256,动量:0.9
5.权重衰减(L2惩罚设置为5x10的负4次方)
6.前两个全连接层使用dropout,设置比率为0.5
7.学习率初始设为0.01,当验证集中精度没有改善时,学习率降低10倍
8.初始化权重很重要(随机初始化)
9.为了增强训练集,随机裁剪得到固定尺寸的输入图像,再进行随机RGB转换,随机水平翻转
10.用了4个GPU训练
11.
基础网络研究 VGG