一文读懂图像分类、目标定位、语义分割与实例分割的区别

做深度学习研究，经常碰到图像分类、目标定位、语义分割及实例分割等概念。下图（来源于网络）展示了上述四个概念之间的区别。

目前，图像分类是进行深度学习研究与学习的基本任务，其主要是在已知类别数量的情况下，通过输入一张图片，来判断图片所属类别。

目标定位则是在图像分类的基础上，进一步判断图像中的目标具体在图像的什么位置，通常是以包围盒的(bounding box)形式进行定位。在目标定位中，通常只有一个或固定数目的目标，而目标检测更一般化，其图像中出现的目标种类和数目都不定。

语义分割是目标检测更进阶的任务，目标检测只需要框出每个目标的包围盒，语义分割需要进一步判断图像中哪些像素属于哪个目标。但是，语义分割不区分属于相同类别的不同实例。例如，当图像中有多只猫时，语义分割会将两只猫整体的所有像素预测为“猫”这个类别。

实例分割需要区分出哪些像素属于第一只猫、哪些像素属于第二只猫。