第一讲 | 视觉识别和卷积神经网络简介

斯坦福大学开设的“用于视觉识别的卷积神经网络（YouTube链接）”（Convolutional Neural Networks for Visual Recognition）课程，主要关注的是视觉识别中一个十分重要的问题——图像分类。这个问题虽然看起来具有很大的限制性和人为因素，但是实际上，该研究方向可以应用到许多不同的领域，不管是在工业领域还是在学术领域，都有很大的应用价值。比如，你可以对美食分类，对艺术品分类，对日常生活用品分类等等。因此，一个看起来比较相对比较基础的图像分类工具，可以针对许多不同的需求，应用到生活中的各个领域。同时，图像分类也有一些其他相关的研究课题，如目标检测，图像捕获等等。

深度学习与计算机视觉[CS231N]：计算机视觉与深度学习/卷积神经网络

深度学习（卷积神经网络）已经成为目标识别领域中的一个十分重要的工具

从imagenet举办的大型视觉识别挑战赛（Large Scale Visual Recognition Challenge）的比赛结果（胜出的算法）可以看出，在2010年，Lin等人的方法依然从用的是分层式的（hierarchical）结构：首先，计算出一些特征（features）；然后，计算出一些本地不变式（local invariances）；接着，经过数层的推导和计算，得到线性SVM的描述符号。
但是在2012年， Jeff Hinton的团队取得了突破性的进展，他们构建了一个名叫AlexNet的七层的神经网络，该神经网络在大赛中的表现十分突出！取得了巨大的成功！从这以后，imagenet挑战赛每年的胜出者采用的算法都是基于神经网络的，并且神经网络的层数也变的越来越深。2014年GoogLeNet的VGG的层数达到了19层，而2015年来自微软亚洲研究院的团队更是将层数扩展到了惊人的152层。之后，每当层数加深一点，算法的性能就会提高一点，到此时唯一需要考虑的就是GPU的负载上限了。

深度学习与计算机视觉[CS231N]：计算机视觉与深度学习/卷积神经网络

卷积神经网络是2012年才被提出的方法吗？

那么问题来了，既然早在1998年就已经研究出了算法的核心思想，那么为什么直到2012年才被人们重视起来呢，两点原因：计算能力和数据集（computation and dataset）。
硬件上的发展促使计算机的计算能力提高了多个数量级，这使得研究学者们可以构建更大的网络结构，有时候虽然采用的是相同的算法，但是当结构的规模变大时，运算的结果也会越好越好！
另一方面，由于卷积神经网络算法对于数据集的规模要求很高，所以当计算机经过十几年的发展以后，互联网上积累的数据越来越多，同样促使了卷积神经网络的复兴。

深度学习与计算机视觉[CS231N]：计算机视觉与深度学习/卷积神经网络

“智能化视觉（visual intelligence）”的终极任务远不止“目标识别（object recognition）”

由于我们的目标是赋予机器像人类一样高度智能的视觉系统，所以就目前为止，我们仍然面临着许多的挑战和难题。比如“行为识别”，当给出一段一个人正在进行某个行为的视频时，如何识别这个人正在进行的是那种行为？再比如增强现实，虚拟现实等等。
深度学习与计算机视觉[CS231N]：计算机视觉与深度学习/卷积神经网络

深度学习与计算机视觉[CS231N]：计算机视觉与深度学习/卷积神经网络

第一讲 | 视觉识别和卷积神经网络简介

深度学习（卷积神经网络）已经成为目标识别领域中的一个十分重要的工具

卷积神经网络是2012年才被提出的方法吗？

“智能化视觉（visual intelligence）”的终极任务远不止“目标识别（object recognition）”

相关推荐