AlexNet学习随手记

Title

ImageNet Classification with Deep Convolutional Neural Networks

Summary

文章是2012年非常出名的文章,采用了卷积,ReLU,MaxPooling等常用的方法,利用1200000张图片进行训练,评价指标为图像领域常用的top-1与top-5两种方法,训练耗时6天(12年显卡),测试结果采用top-5得到错误率为16.4%,比第二名高了10百分点。

Research Objective

在ILSVRC比赛上,使用有1000个类的1200000张图片作为训练集,训练一个模型用于图像识别。

Problem Statement

  1. 模型如何建立
  2. 如何进行图像预处理
  3. 如何解决过拟合问题
  4. 使用什么训练方法

Method(s)

网络结构:

AlexNet学习随手记

  1. 重叠池化:在池化层中,stribe小于池化size,令两次池化之间有重叠的部分
  2. 随机裁剪:在原始图像中,随机裁剪出若干个固定像素大小的图片,再随机镜像翻转
  3. LRN:已经弃用,被证明无效
  4. dropout:随机失活方法,减轻过拟合
  5. ReLU:加快模型收敛,比饱和函数sigmoid和tanh更快

Evaluation

采用了两种评估方式

  1. top-1:模型预测1种结果
  2. top-5:模型可预测5种结果,有一种对则结果正确,全错才认为识别错误

Conclusion

strong conclusions:

  1. ReLU在作者的场景下更实用,收敛快
  2. 随即裁剪有助于提高识别率
  3. 重叠池化也能提高识别率(不是很理解为什么,玄学)

weak conclusions:

  1. AlexNet学习随手记
    相似的图片具有相似的高级特征,或许可以利用网络进行图片压缩还原
  2. AlexNet学习随手记
    对图片缩放时,对短边先缩放可以减少信息的损失(应该是假设图片信息比较居中吧)

Notes(optional)

可以用于参考文献的点:

  1. AlexNet学习随手记
    深度与宽度决定网络能力
  2. AlexNet学习随手记
    卷积可以学习到频率,颜色、方向等信息

Reference(optional)

emmmmmmmmm。。。。。。