学习计算机视觉:(一)基本概念与主要内容
最近在学习计算机视觉,顺便把笔记记录在这里,方便复习。
1.基本概念
计算机视觉:是指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图像处理,用计算机处理成为更适合人眼观察或传送给仪器检测的图像1。
简而言之有两点:
1.让计算机具有人类视觉的所有功能
2.让计算机从图像数据中,提取有用的信息
1.1.特点
模拟人类视觉的优越能力:
•识别人、物体、场景
•估计立体空间、距离
•躲避障碍物进行导航
•想象并描述故事
•理解并讲解图片
弥补人类视觉的缺陷:
•关注显著内容、容易忽略很多细节
•不在乎、不擅长精细感知
•容易受幻觉干扰
•描述主观、磨轮两可
•不善于长时间稳定的执行同一个任务
1.2.研究方向
两个主要研究方向:
语义感知
1.场景理解【最终形态】
视觉描述(Visual Captioning)
视觉问答(Visual Question Answering)
2.基础理解【根本】
分类、识别、检测、分割、显著性等
得益于深度学习网络发展,性能大幅提升几何属性
2.主要研究内容
2.1.计算机视觉的基础
- 数据图像处理
- 图像特征及描述
2.2.深度学习在计算机视觉中的应用
- 图像分类:卷积神经网络CNN
- 图像检测:区域卷积神经网络R-CNN
- 图像分割:全卷积神经网络FCN
- 图像描述:迭代神经网络RNN
- 图像问答:迭代神经网络RNN
- 图像生成:生成对抗网络GAN
2.3.图像检索
2.4.研究挑战
- 视角变化
- 光照变化
- 尺度变化
- 形态变化
- 背景混淆
- 干扰
- 遮挡
- 类内物体的外观差异