对计算机视觉的浅显认识

什么是计算机视觉？
计算机视觉任务方向

分类定位识别
目标检测
目标跟踪
图像处理
分割

为什么要学习计算机视觉？

什么是计算机视觉？

计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。这里所指的信息指Shannon定义的，可以用来帮助做一个“决定”的信息。因为感知可以看作是从感官信号中提取信息，所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。

计算机视觉任务方向

分类定位识别

图像分类任务通常是指为整张图像分配特定的标签，如下左图整张图像的标签为 CAT。而定位是指找到识别目标在图像中出现的位置，通常这种位置信息将由对象周围的一些边界框表示出来。识别技术根据从图象抽取的统计特性或结构信息，把图像分成予定的类别。
对计算机视觉的浅显认识图 1：计算机视觉任务，来源 cs231n 课程资料。

目标检测

目标检测（Object Detection）即如字面所说的检测图像中包含的物体或目标。最受大众关注且目前应用较为广泛的应属人脸识别。

对计算机视觉的浅显认识

目标跟踪

目标跟踪，是指在特定场景跟踪某一个或多个特定感兴趣对象的过程。传统的应用就是视频和真实世界的交互，在检测到初始对象之后进行观察。现在，目标跟踪在无人驾驶领域也很重要，例如 Uber 和特斯拉等公司的无人驾驶。
对计算机视觉的浅显认识

图像处理

图像处理技术把输入图像转换成具有所希望特性的另一幅图像。例如，可通过处理使输出图象有较高的信-噪比，或通过增强处理突出图象的细节，以便于操作员的检验。在计算机视觉研究中经常利用图象处理技术进行预处理和特征抽取。

对计算机视觉的浅显认识

分割

计算机视觉的核心是分割，它将整个图像分成一个个像素组，然后对其进行标记和分类。特别地，语义分割试图在语义上理解图像中每个像素的角色（比如，识别它是汽车、摩托车还是其他的类别）。如上图所示，除了识别人、道路、汽车、树木等之外，我们还必须确定每个物体的边界。因此，与分类不同，我们需要用模型对密集的像素进行预测。

对计算机视觉的浅显认识

为什么要学习计算机视觉？

人脸识别： Snapchat 和 Facebook 使用人脸检测算法来识别人脸。
图像检索：Google Images 使用基于内容的查询来搜索相关图片，算法分析查询图像中的内容并根据最佳匹配内容返回结果。
游戏和控制：使用立体视觉较为成功的游戏应用产品是：微软 Kinect。
监测：用于监测可疑行为的监视摄像头遍布于各大公共场所中。
生物识别技术：指纹、虹膜和人脸匹配仍然是生物识别领域的一些常用方法。
智能汽车：计算机视觉仍然是检测交通标志、灯光和其他视觉特征的主要信息来源。

对计算机视觉的浅显认识