计算机视觉发展历程

1.人类想了解视觉的原理→探测猫的大脑皮层→发现它对边缘信息更敏感 cs231n笔记（一）
2.视觉世界太复杂了→简化为简单的几何形状→识别和重建这些形状

3.（表示物体）建立3D模型：边缘、端点、虚拟线条→边缘与深度信息、场景的不连续性拼凑起来→3D4.（表示物体）用圆柱或圆圈-线表示人形
cs231n笔记（一）
5.（识别物体）猫对边缘信息更敏感，所以尝试通过物体边缘来识别物体

6.（识别物体）目标识别太难了，先做目标分割→把图片中的像素点归类到不同的区域（虽然我们并不知道它是什么东西，但是我们知道他们是类似的）
cs231n笔记（一）
7.（识别物体）人类对面部信息很敏感，所以面部检测发展得比较快

8.（识别物体）SIFT特征匹配（基于特征的目标识别）：直接识别一个整体是很困难的（影响因素：遮挡、尺度缩放、旋转、亮度变化等）但是有些特征在上面的影响因素下保持不变。
先找出不变的特征，用这些特征进行精确匹配，最后匹配整个目标
cs231n笔记（一）
9.（识别物体）金字塔匹配（识别整幅图像）：图片里的各种特征可以告诉我们这是厨房还是风景。
从图片的各个分块中提取这些特征，并把它们放在一起作为一个整体，然后拿去做分类

10.（识别物体）特征用于识别人体姿态（方向梯度直方图、可变形部件模型）
cs231n笔记（一）
11.识别是很复杂的问题，所以模型的维数往往比较高，训练数据量不够时容易发生过拟合（一个不恰当的比喻：这个本子上的题全都会做了，但是出一道不在本子上的题就做错了）。所以要求有较大的训练数据集。21世纪早期我们才真正有标注的数据集
2015年ImageNet挑战识别的错误率低于人类的识别率
cs231n笔记（一）
12.可以看到上图中2012年的错误率明显下降，这是因为使用了卷积神经网络，后来的团队也都使用了卷积神经网络
看下图你会发现1998年用来识别手写数字的卷积神经网络和2012年的结构非常像，为什么2012才变得流行？
1）计算能力（比如晶体管的数量）提高就能得到更好的结果
2）还有GPU这样的图像处理单元（非常适合卷积神经网络）
3）大量的标注数据
cs231n笔记（一）

计算机视觉的各种任务

1.图像分类：输入一张图像，从固定的类别集合中选出所属的类别
cs231n笔记（一）
2.目标检测(Object detection)：先画出边界框，再进行分类
图像摘要（Image Captioning）：给一幅图像，生成一段句子，用到图像分类

3.实例分割（每个图像代表什么）、让计算机理解3D、识别动作、增强现实和虚拟现实
cs231n笔记（一）
4.不只识别出物体，还能识别出对象关系、对象属性、场景中的动作等

5.人眼在一闪而过的图片中依然能够写出一长段的描述段落。花更长时间看这张图，人类可能写出一部小说（脑补能力）

6.一张图片中能包含非常多的信息，而计算机还不能识别出来（我们看到这幅图会笑出来，而计算机并不了解）
cs231n笔记（一）

cs231n笔记（一）

目录

计算机视觉发展历程

计算机视觉的各种任务

相关推荐