基于域适应的弱监督学习的物体检测:

1、简介

随着深度学习在物体检测方面的快速发展,但目前的物体检测技术主要的面向对象是真实场景下的图像,但对于像水彩画这种非真实场景下的物体检测技术来说,其一般很难获取大量的带有标注的数据集,因此问题就变得比较棘手。为解决这一问题,作者提出了基于域适应的弱监督学习策略,其可以描述为(1)、选取一个带有实例级标注的源域数据;(2)、仅有图像级标注的目标域数据;(3)、目标域数据的类别是源域数据类别的全集或子集。我们的任务就是在源域拥有充足的实例级标注的数据但目标域仅有少量图像级标注的目标域数据的情况下尽可能准确的完成实现对目标域数据的物体检测。这个任务的难点主要在于目标域没有实例级的标注,因此无法直接利用目标数据集对基于源数据集训练的模型进行微调。针对这一问题,作者提出了两种解决方法,(1)、域迁移(domain transform,DT),即利用图像转换技术,如CycleGAN将源域数据转换为和目标数据相似的带有实例级的图像。(2)利用伪标记(pseudo-labeling,PL)来对目标域数据产生伪实例级标注。两种方法如图1所示: 

基于域适应的弱监督学习的物体检测:

 

                                                                                     图1

为验证该策略的有效性,作者分别采集并手工标注了三个分别具有实例级标注的目标数据集:Clipart1k,Watercolor2k,Comic2k。数据集及代码见:https://naoto0804.github.io/cross_domain_detection/

2、数据集

小编认为,作者这篇文章最大的贡献之处不仅仅在于其提出的基于弱监督学习的目标检测的方法,更重要的是作者所建立的数据集,为将来这方面工作的进行提供了数据集支持。

基于域适应的弱监督学习的物体检测:

                                                                                   图2

在本文中,作者选取的源域数据集为PASCAL VOC数据集,同时作者收集并标注了3个目标域数据集,其示例如图2所示。数据集的具体信息如表1所示:

                                                                                   表1

基于域适应的弱监督学习的物体检测:

3、方法

本文的方法如图3所示,首先我们对源域图像进行域迁移训练得到域迁移图像,然后对于基于源域数据集训练得到的模型,再通过域迁移得到的图像对模型进行微调,最后再使用伪标记所获取的数据对模型进一步的进行微调。

基于域适应的弱监督学习的物体检测:

                                                                                    图3

3.1 域迁移(DT)

正如前面所提到的,本文主要解决的问题是目标域域源域分布不同的目标检测问题,而这部分旨在通过变换将源域数据分布变换为目标域分布。这里作者使用的是CycleGAN来实现这种变换。

3.2 伪标记(PL)

对于只用图像级标注(即每个图像上包含哪几种类别)的目标域数据集,我们需要获取其伪实例级标注。首先对于目标域图像基于域适应的弱监督学习的物体检测:对于每一幅图像基于域适应的弱监督学习的物体检测:,使用基于源域训练的模型得到输出基于域适应的弱监督学习的物体检测:,其中基于域适应的弱监督学习的物体检测:是得到的bounding box,基于域适应的弱监督学习的物体检测:是得到的类别,基于域适应的弱监督学习的物体检测:是属于该类的概率。根据这个结果,对于图像中所包含的每个类别,通过选取top-1概率的结果来作为目标图像的bounding box,从而来实现对目标图像的伪标注。

4、实验

为证明方法的有效性,作者分别利用PL、DT、DT+PL进行微调的方法进行了实验,在Clipart1k上的实验结果如表2所示。其中基线(Baseline)是利用SSD300直接在目标域图像上进行实验的结果。而理想水平(Ideal case)是利用带实例级标注的目标域数据对模型进行微调的结果。此外,作者还利用基于弱监督检测的方法ContextLocNetWSDDN及无监督域适应的方法ADDA来做对比实验。

                                                                                        表2

基于域适应的弱监督学习的物体检测:

从表2可以看出,作者提出的微调策略能够在检测性能上有较大的提升。此外从表2中可以看出经过DT变换后的数据的微调可以很大程度上提升检测性能,而在不使用图像级标注的PL数据域进行微调的方法不仅不能提高性能,而且会导致性能有所下降,所以图像级的标签对物体检测是很重要的。

此外,作者在YOLOv2及Faster R-CNN上进行了同样的实验,实验结果同样显示出该微调策略的有效性。实验结果如表3所示:

                                                                                    表3

基于域适应的弱监督学习的物体检测:

作者为验证自己的方法为何有效,采用方法该论文的方法对检测效果进行分析,分析结果如图4所示。从图中可以看出基于DT变换的微调模型能够很好的提高物体检测的性能,相对于DT来说,基于DT+PL的微调策略能够进一步的提高检测的性能,尤其是在容易将类别识别为别的类别的检测上(Sim将物体识别成与该物体类似但不相同的类别,Oth将物体识别成其他不相似的类别)。这也进一步说明了为何图像级标注可以提高物体检测的性能。

基于域适应的弱监督学习的物体检测:

                                                                                    图4

此外,作者还对另外两个数据集进行了实验,实验结果分别如表4、5所示:

                                                                                     表4

基于域适应的弱监督学习的物体检测:

                                                                                    表5

基于域适应的弱监督学习的物体检测:

5、总结

在本文中,作者为将目前物体检测技术应用到一些非现实场景,即目前缺少大量实例级标注的场景,如水彩画的目标检测,提出了一套全新的训练策略,将当前物体检测技术迁移到这些应用中,并建立了一些数据集来为将来这方面的工作做铺垫。小编认为这项工作是非常有意义的,本身就人而言,我们不仅可以很好地检测实际场景中的物体,同样可以很好地检测到一些例如动画、水彩画中的物体,即使有时我们很少接触这些。而基于深度学习的物体检测技术也应该具备这种能力。