论文ImageNet Classification with Deep Convolutional Neural Networks（Alexnet2012）

一、论文关键点
1.神经网络在有了算力更好的gpu与更大的数据集合（ILSVRC和imagenet）后会取得更好的效果。
2.网络超参数(人为设定的，非机器自学习到的参数，如batchsize,weight decay,learning rate,epoches)的设置，权重及偏置的初始化(卷积核初始化方式：均值为0方差为1的高斯分布；偏置初始化方式：2,4,5卷积层及全连接层初始化为1，剩余层初始化为0)。
3.防过拟合技术，数据增强（随机地从256256的原始图像中截取224224大小的区域（以及水平翻转的镜像）、对图像的RGB数据进行PCA处理，并对主成分做一个标准差为0.1的高斯扰动,增加一些噪声），dropout（接在全连接层后面，随机将一定比例的神经元置为0，相当于机器学习中的模型融合ensemble）.
4.网络结构（5个conv层，3个pooling层，3个全连接层），Relu（成功解决Sigmoid在网络较深时的梯度弥散问题），两个gpu训练（gpu之间的通信只在网络的某些层进行，控制通信的性能损耗），LRN（接在conv和relu后面，局部响应归一化：在后来的设计中，这一层已经被其他的Regularization技术，如batch normalization取代了），overlapping pooling（重叠最大池化，避免平均池化的模糊化效果，并且让步长比池化核的尺寸小，提升了特征的丰富性）。
论文ImageNet Classification with Deep Convolutional Neural Networks（Alexnet2012）
5.做的实验展示了卷积核学习到的内容（权重和特征可视化），同一类的图像特征的欧式距离更近。
二、对自己的启发（补基础）
1.图像分类流程

softmax作用	cross entropy
将神经网络的输出变为概率分布 1.数据之和为1 2.负数变为正数	交叉熵衡量两个概率分布的距离 1.值越小，两个概率越接近 2.值越大，两个概率越不接近模型1预测的概率分布为[0.81 0.18 0.01] loss1=-[1log(0.81)+0log(0.18)+0log(0.01)]=0.21 模型2预测的概率分布为[0.5 0.3 0.2] loss2=-[1log(0.5)+0log(0.3)+0log(0.2)]=0.69

2.输入特征图尺寸，输出特征图尺寸，可训练参数的数量，连接的数量。

以下图片引用自深度之眼deepshare.net

论文ImageNet Classification with Deep Convolutional Neural Networks（Alexnet2012）

根据公式，
（1）输出卷积特征图尺寸=（输入卷积特征图尺寸+2×padding-卷积核大小）/stride+1
（VALID时可简化为：输出卷积特征图尺寸=（输入卷积特征图尺寸-卷积核大小+1）/stride；无padding即卷积方式SAME时可简化为：输出卷积特征图尺寸=输入卷积特征图尺寸/stride）
（2）参数量=（卷积核大小的平方×卷积核通道数+1）×输出特征图通道数
（3）连接数量=输出卷积特征图尺寸的平方×（（卷积核大小的平方×卷积核通道数+1）×输出特征图通道数）=输出卷积特征图尺寸的平方×参数量
conv1的输入特征图尺寸为227×227，输出特征图尺寸((227-11+1)/4=54.25)为55×55，参数量为(11×11×3+1)×96=34944，连接的数量为(55×55)×参数量=105705600
其他层的计算依次类推。
3.实践方面：loss不变化则增大学习率，为none则降低学习率；现在常用卷积层代替全连接层。

论文ImageNet Classification with Deep Convolutional Neural Networks（Alexnet2012）

相关推荐