深度学习与计算机视觉[CS231N]:计算机视觉与深度学习/卷积神经网络

第一讲 | 视觉识别和卷积神经网络简介

   斯坦福大学开设的“用于视觉识别的卷积神经网络(YouTube链接)”(Convolutional Neural Networks for Visual Recognition)课程,主要关注的是视觉识别中一个十分重要的问题——图像分类 。这个问题虽然看起来具有很大的限制性和人为因素,但是实际上,该研究方向可以应用到许多不同的领域,不管是在工业领域还是在学术领域,都有很大的应用价值。比如,你可以对美食分类,对艺术品分类,对日常生活用品分类等等。因此,一个看起来比较相对比较基础的图像分类工具,可以针对许多不同的需求,应用到生活中的各个领域。同时,图像分类也有一些其他相关的研究课题,如目标检测,图像捕获等等。

深度学习与计算机视觉[CS231N]:计算机视觉与深度学习/卷积神经网络

深度学习(卷积神经网络)已经成为目标识别领域中的一个十分重要的工具

   从imagenet举办的大型视觉识别挑战赛(Large Scale Visual Recognition Challenge)的比赛结果(胜出的算法)可以看出,在2010年,Lin等人的方法依然从用的是分层式的(hierarchical)结构:首先,计算出一些特征(features);然后,计算出一些本地不变式(local invariances);接着,经过数层的推导和计算,得到线性SVM的描述符号。
但是在2012年, Jeff Hinton的团队取得了突破性的进展,他们构建了一个名叫AlexNet的七层的神经网络,该神经网络在大赛中的表现十分突出!取得了巨大的成功!从这以后,imagenet挑战赛每年的胜出者采用的算法都是基于神经网络的,并且神经网络的层数也变的越来越深。2014年GoogLeNet的VGG的层数达到了19层,而2015年来自微软亚洲研究院的团队更是将层数扩展到了惊人的152层。 之后,每当层数加深一点,算法的性能就会提高一点,到此时唯一需要考虑的就是GPU的负载上限了。

深度学习与计算机视觉[CS231N]:计算机视觉与深度学习/卷积神经网络

深度学习与计算机视觉[CS231N]:计算机视觉与深度学习/卷积神经网络

卷积神经网络是2012年才被提出的方法吗?

  那么问题来了,既然早在1998年就已经研究出了算法的核心思想,那么为什么直到2012年才被人们重视起来呢,两点原因:计算能力和数据集(computation and dataset)。
硬件上的发展促使计算机的计算能力提高了多个数量级,这使得研究学者们可以构建更大的网络结构,有时候虽然采用的是相同的算法,但是当结构的规模变大时,运算的结果也会越好越好!
另一方面,由于卷积神经网络算法对于数据集的规模要求很高,所以当计算机经过十几年的发展以后,互联网上积累的数据越来越多,同样促使了卷积神经网络的复兴。

深度学习与计算机视觉[CS231N]:计算机视觉与深度学习/卷积神经网络

“智能化视觉(visual intelligence)”的终极任务远不止“目标识别(object recognition)”

  由于我们的目标是赋予机器像人类一样高度智能的视觉系统,所以就目前为止,我们仍然面临着许多的挑战和难题。比如“行为识别”,当给出一段一个人正在进行某个行为的视频时,如何识别这个人正在进行的是那种行为?再比如增强现实,虚拟现实等等。
深度学习与计算机视觉[CS231N]:计算机视觉与深度学习/卷积神经网络