论文ImageNet Classification with Deep Convolutional Neural Networks(Alexnet2012)

一、论文关键点
1.神经网络在有了算力更好的gpu与更大的数据集合(ILSVRC和imagenet)后会取得更好的效果。
2.网络超参数(人为设定的,非机器自学习到的参数,如batchsize,weight decay,learning rate,epoches)的设置,权重及偏置的初始化(卷积核初始化方式:均值为0方差为1的高斯分布;偏置初始化方式:2,4,5卷积层及全连接层初始化为1,剩余层初始化为0)。
3.防过拟合技术,数据增强(随机地从256256的原始图像中截取224224大小的区域(以及水平翻转的镜像)、对图像的RGB数据进行PCA处理,并对主成分做一个标准差为0.1的高斯扰动,增加一些噪声),dropout(接在全连接层后面,随机将一定比例的神经元置为0,相当于机器学习中的模型融合ensemble).
4.网络结构(5个conv层,3个pooling层,3个全连接层),Relu(成功解决Sigmoid在网络较深时的梯度弥散问题),两个gpu训练(gpu之间的通信只在网络的某些层进行,控制通信的性能损耗),LRN(接在conv和relu后面,局部响应归一化:在后来的设计中,这一层已经被其他的Regularization技术,如batch normalization取代了),overlapping pooling(重叠最大池化,避免平均池化的模糊化效果,并且让步长比池化核的尺寸小,提升了特征的丰富性)。
论文ImageNet Classification with Deep Convolutional Neural Networks(Alexnet2012)
5.做的实验展示了卷积核学习到的内容(权重和特征可视化),同一类的图像特征的欧式距离更近。
二、对自己的启发(补基础)
1.图像分类流程
论文ImageNet Classification with Deep Convolutional Neural Networks(Alexnet2012)

softmax作用 cross entropy
将神经网络的输出变为概率分布
1.数据之和为1
2.负数变为正数
交叉熵衡量两个概率分布的距离
1.值越小,两个概率越接近
2.值越大,两个概率越不接近
模型1预测的概率分布为[0.81 0.18 0.01]
loss1=-[1log(0.81)+0log(0.18)+0log(0.01)]=0.21
模型2预测的概率分布为[0.5 0.3 0.2]
loss2=-[1
log(0.5)+0log(0.3)+0log(0.2)]=0.69

2.输入特征图尺寸,输出特征图尺寸,可训练参数的数量,连接的数量。

以下图片引用自深度之眼deepshare.net

论文ImageNet Classification with Deep Convolutional Neural Networks(Alexnet2012)
论文ImageNet Classification with Deep Convolutional Neural Networks(Alexnet2012)
论文ImageNet Classification with Deep Convolutional Neural Networks(Alexnet2012)
根据公式,
(1)输出卷积特征图尺寸=(输入卷积特征图尺寸+2×padding-卷积核大小)/stride+1
(VALID时可简化为:输出卷积特征图尺寸=(输入卷积特征图尺寸-卷积核大小+1)/stride;无padding即卷积方式SAME时可简化为:输出卷积特征图尺寸=输入卷积特征图尺寸/stride)
(2)参数量=(卷积核大小的平方×卷积核通道数+1)×输出特征图通道数
(3)连接数量=输出卷积特征图尺寸的平方×((卷积核大小的平方×卷积核通道数+1)×输出特征图通道数)=输出卷积特征图尺寸的平方×参数量
conv1的输入特征图尺寸为227×227,输出特征图尺寸((227-11+1)/4=54.25)为55×55,参数量为(11×11×3+1)×96=34944,连接的数量为(55×55)×参数量=105705600
其他层的计算依次类推。
3.实践方面:loss不变化则增大学习率,为none则降低学习率;现在常用卷积层代替全连接层。