斯坦福大学 CS231n 视觉识别卷积神经网络 - Introduction to Convolutional Neural Networks for Visual Recogntion-2

Introduction to Convolutional Neural Networks for Visual Recogntion

接上文

3.3.3 70,80年代CV的发展

70年代开始,专家和相应的学者们在思考如何能有效的表示真实世界,有两组研究团队其中一个是 Generalized Cylinder*s & Binford 1979) ,另一个是 Pictorial StructureFischler & Elschlager 1973),这两个研究团队提出的观点在基本上是相似的,每个物体都是由简单的几何图元构成的。 例如,人可以被视为由简单的圆柱体组装而成,有或者是由关键部分和各部分之间的弹性距离拼接而成。
斯坦福大学 CS231n 视觉识别卷积神经网络 - Introduction to Convolutional Neural Networks for Visual Recogntion-2
在80年代, 1987年 David Lowe 开始考虑利用线条边缘的结合来重新组建剃须刀的图像。这些在60、70、80年代的尝试,看上去的目标都是很伟大很有野心的,但是实际结果对于目标来言,还是稍显太稚嫩了些。从这开始,人们也开始认识到了,或许如果物体识别对于现在来讲还是很难的,或许应该先尝试物体分割

3.3.4 图像分割的发展

1997年,Shi 和 Malik 从背景中提取出了人和物体的相应像素,虽然我们不知道这些像素组成在一起是人或是其他物体,但是我们却能将不同物体在图像之中分割开来,而这就是图像分割。
斯坦福大学 CS231n 视觉识别卷积神经网络 - Introduction to Convolutional Neural Networks for Visual Recogntion-2
另一个重要的是人脸检测,人脸对于人来说是一个很重要的物体,甚至可能是最重要的。在1999到2000年间机器学习算法开始得到了运用想支持向量机,提升算法,图像模型包括神经网络的第一次兴起。一个很重要的发现是Paul ViolaMichael JonesAdaBoost 算法做到了近乎实时的人脸检测。在五年后,Fujifilm 上市了第一个能检测人脸的数码相机,这也是计算机图形学从传统的科学研究正式转化到了现实世界的应用的里程碑。

3.3.5 90年代的SIFT

1999年,David Lowe 发明了SIFT特征,SIFT的主要思想是将整个图像匹配另一个相同图像,这看上去是很困难的,因为这里面存在许多变量,包括光照,形状,物体内部的变化等等。但是我们能够惊喜的发现图像中是有一些不会变化的特征,所以物体检测也就是识别物体上的这些不变特征,然后再跟相似的物体进行比对。
斯坦福大学 CS231n 视觉识别卷积神经网络 - Introduction to Convolutional Neural Networks for Visual Recogntion-2

3.3.6 PASCAL VOC 和 ImageNet 的出现

在2000s初期,随着Internet和数码相机的普及,图像的质量越来越好,第一批标注图像数据集也应运而生。其中PASCAL Visual Object Challenge 是比较出名的一个挑战,它包含20个类别每个类别大约有几千到一万张图像。

斯坦福大学 CS231n 视觉识别卷积神经网络 - Introduction to Convolutional Neural Networks for Visual Recogntion-2
但是斯坦福和普林斯顿的一帮人本着这个探索求知不懈进取的精神,于是给大家想了个更难的问题,他们打算把世界上绝大多数的物体都包含进一个数据集,于是 ImageNet 诞生了。 ImageNet 包含近22K的物体种类,共有14M的图像。(能组织这样一个数据集真是神人了。。只能用卧槽表示感叹)

斯坦福大学 CS231n 视觉识别卷积神经网络 - Introduction to Convolutional Neural Networks for Visual Recogntion-2
机器学习算法是好,但是几乎所有的机器学习算法都有这样的致命缺陷,过拟合。为什么会过拟合呢?一般机器学习算法的输入和输出都是高维的,中间的参数又无比繁多,但是我们又没有足够的训练数据。所以 ImageNet 可能会解决掉这个机器学习的瓶颈,ImageNet无疑将物体识别算法又推向了新的高度。

ImageNet 和 PASCAL一样提出了国际性的挑战 The Image Classification Challenge。这项挑战包含了
1000物品种类,1431167张图片。具体要求细节不讲了。

可以看到每年的error rate都在逐渐下降,FeiFeiLi还小装了一下,他有个博士生花了一个暑假很轻松得到的结果(在最右边)也很好。。我们需要注意的是其中在2012年的时间我们可以看到错误率有了断崖式的下跌,当年的冠军是我们熟悉的CNN前辈 AlexNet
斯坦福大学 CS231n 视觉识别卷积神经网络 - Introduction to Convolutional Neural Networks for Visual Recogntion-2

第一节到此结束,谢谢观看,求个赞,不要下次一定,也不要下次也不一定。

视频链接:

B站 : https://www.bilibili.com/video/av15474625?p=1
Youtube : https://www.youtube.com/watch?v=OoUX-nOEjG0&list=PL3FW7Lu3i5JvHM8ljYj-zLfQRF3EO8sYv