一文读懂图像分类、目标定位、语义分割与实例分割的区别

做深度学习研究,经常碰到图像分类、目标定位、语义分割及实例分割等概念。下图(来源于网络)展示了上述四个概念之间的区别。

一文读懂图像分类、目标定位、语义分割与实例分割的区别

目前,图像分类是进行深度学习研究与学习的基本任务,其主要是在已知类别数量的情况下,通过输入一张图片,来判断图片所属类别。

目标定位则是在图像分类的基础上,进一步判断图像中的目标具体在图像的什么位置,通常是以包围盒的(bounding box)形式进行定位。在目标定位中,通常只有一个或固定数目的目标,而目标检测更一般化,其图像中出现的目标种类和数目都不定。

语义分割是目标检测更进阶的任务,目标检测只需要框出每个目标的包围盒,语义分割需要进一步判断图像中哪些像素属于哪个目标。但是,语义分割不区分属于相同类别的不同实例。例如,当图像中有多只猫时,语义分割会将两只猫整体的所有像素预测为“猫”这个类别。

实例分割需要区分出哪些像素属于第一只猫、哪些像素属于第二只猫。