MyDLNote - Network : 2020 CVPR 通过旋转特征解耦实现自监督表示学习

Self-Supervised Representation Learning by Rotation Feature Decoupling

Zeyu Feng, Chang Xu, Dacheng Tao

UBTECH Sydney AI Centre, School of Computer Science, FEIT, University of Sydney, Darlington, NSW 2008, Australia

[email protected], {c.xu, dacheng.tao}@sydney.edu.au

 

这篇文章在知乎和一些网上被提出质疑,该文其实就是将两篇文章进行了拼接组合。但这里我想说两句:

首先,我认为这种组合应该是有效的,是可行的;

其次,嘴下留情,点到为止,没有必要刻意放大。

我们最好多想想别人工作中好的地方。当然,维护学术风气非常重要,要从自己做起。

 

 

Abstract 

We introduce a self-supervised learning method that focuses on beneficial properties of representation and their abilities in generalizing to real-world tasks. The method incorporates rotation invariance into the feature learning framework, one of many good and well-studied properties of visual representation, which is rarely appreciated or exploited by previous deep convolutional neural network based self-supervised representation learning methods. Specifically, our model learns a split representation that contains both rotation related and unrelated parts. We train neural networks by jointly predicting image rotations and discriminating individual instances. In particular, our model decouples the rotation discrimination from instance discrimination, which allows us to improve the rotation prediction by mitigating the influence of rotation label noise, as well as discriminate instances without regard to image rotations. 

本文介绍了一种自我监督的学习方法,它关注于表示法的有益特性,以及它们在推广到现实世界任务中的能力。该方法将旋转不变性融入到特征学习框架中,这是视觉表示中许多研究得很好的特性之一,而之前基于深度卷积神经网络的自监督表示学习方法很少重视或利用这一特性。具体来说,本文的模型学习了包含旋转相关和不相关部分的分割表示。通过联合预测图像旋转和区分个体实例来训练神经网络。特别是,该模型将旋转识别与实例识别解耦,可以通过减少旋转标签噪声的影响来改进旋转预测,以及不考虑图像旋转来区分实例。所得到的特征具有更好的泛化能力,适用于更多不同的任务。

 

Introduction

深度神经网络,特别是卷积神经网络 (ConvNets) 在计算机视觉领域取得了突破性进展。给定大规模人工标记的图像数据集,如ImageNet, ConvNets 可以通过反向传播很好地训练,并在许多任务上实现最先进的性能。这些网络所提取的丰富的表示,不仅对于训练网络的任务,而且对于许多其他视觉任务,如语义分割和视觉回答等问题,都是很好的通用特征。然而,在完全监督的方式下训练深度神经网络需要大量的手工标记工作,这在某些现实场景中是不可行的。

作为监督特征学习的替代方法,非监督方法不依赖昂贵和人类标记的时间消费,正受到越来越多的关注。最近出现的自我监督学习范式是一种可扩展的、有前途的解决方案,用于学习有用的通用视觉表征。这些方法用于挖掘数据本身的结构信息,并定义与最终应用所学特征训练神经网络相关的 pretext task。在任务中,监督信号可以很容易地发展而不需要大量的人力努力,因此大量现成的图像可以用于训练。

在过去的几年里,许多不同的 pretext 任务被提出用于自我监督学习。例如,其中一类方法试图从另一部分数据本身中恢复一部分数据。但这种方法的缺点是需要对图像像素值进行重建和预测,这往往需要大量的计算资源深度神经网络也可以通过训练来区分原始图像和恢复的不完整图像。然而,生成合成图像并不总是一件容易的事情Siamese 网络架构已经被用于自监督学习,但内存消耗通常很大。另一种不同但被广泛采用的策略是发现视频中的监控信号,如跟踪图像表和帧序列。

现有的研究大多集中在各种各样的 pretext 任务的设计上,而很少关心所习得的表征具有什么性质,以及它们是否确实有利于现实世界任务的泛化。例如,高层表示应该传达一个清晰的解释或因素变化的某些依赖关系。最近的一个尝试是预测图像旋转。该方法学习到的特征可以很好地推广到各种任务中,达到了最先进的性能。但是,这些特征在旋转变换下是有区别的,因此不利于有利于旋转不变性的视觉任务。此外,值得注意的是,并不是所有的例子在实践中旋转是可确定的。图像的方向不仅对于圆形对象是不确定的,对于图像中的许多其他方向不确定的对象也是不确定的,例如,从顶部查看的某些对象或对称形状的对象,如图1所示。旋转这些对象不会显著影响我们的描述或理解。

MyDLNote - Network : 2020 CVPR 通过旋转特征解耦实现自监督表示学习

  Figure 1: Examples of some rotation agnostic images in ImageNet. The default orientations of these images are ambiguous.

 

本中提出了一种新的自监督学习算法,它通过一个旋转预测任务和一个实例识别任务来解耦表示。所学习的示例特征由两个成分组成,分别是旋转区分和旋转无关

旋转鉴别特征可以通过预测图像旋转来发现,这是简单而有效的,并在一些基准上达到了最新的结果。

对于数据集中那些方位不确定的图像,自动分配的旋转标签通常含有噪声,这自然会导致正样本无标签学习问题。默认方向的原始图像是正实例,而旋转的副本是未标记实例,可为正或负。如果旋转副本的转换不能明确地识别,我们将其视为未标记集合中具有默认方向的正实例 (参见补充材料中的图1)。

另一方面,我们通过对同一幅图像不同旋转下特征间的距离差进行惩罚来学习旋转无关的特征。基于这些与旋转无关的特征,采用非参数方法对不同的实例进行区分。因此,这些特性将具有实例级的区分能力。

 

Method : Rotation feature decoupling

Image rotation prediction

卷积神经网络的强大之处在于,它能将原始图像映射到语义上有意义的特大。但它们通常使用图像及其对应的 ground truth 标签进行训练。为了采用无监督的方式获得图像的通用特征,RotNet 研究了图像的几何变换,特别是以 90 度的倍数旋转的图像,作为监督信号,并训练 ConvNet 来预测旋转变换。因此,语义上有意义的表示可以编码到 ConvNet. 的更高层次的特征图中。

对于训练数据集 MyDLNote - Network : 2020 CVPR 通过旋转特征解耦实现自监督表示学习 幅图像中的 1 幅,RotNet 对每个图像 X 定义了一组旋转变换 MyDLNote - Network : 2020 CVPR 通过旋转特征解耦实现自监督表示学习 。MyDLNote - Network : 2020 CVPR 通过旋转特征解耦实现自监督表示学习 表示第 i 张 y 次旋转的图像,其中,MyDLNote - Network : 2020 CVPR 通过旋转特征解耦实现自监督表示学习. ConvNet 模型 MyDLNote - Network : 2020 CVPR 通过旋转特征解耦实现自监督表示学习 通过训练将每幅旋转后的图像分类为其中一种变换。我们的目标是

MyDLNote - Network : 2020 CVPR 通过旋转特征解耦实现自监督表示学习

其中 MyDLNote - Network : 2020 CVPR 通过旋转特征解耦实现自监督表示学习 为分类问题的交叉熵损失。变换被定义为旋转 90 度的倍数,即 K = 4; MyDLNote - Network : 2020 CVPR 通过旋转特征解耦实现自监督表示学习 表示将图像 X 逆时针旋转 MyDLNote - Network : 2020 CVPR 通过旋转特征解耦实现自监督表示学习

RotNet 的基本前提是,旋转图像时图像中物体的方向也会发生改变,并且这个过程是很容易被识别的。为了预测图像的旋转,神经网络必须识别和定位图像中突出的目标部分。因此,well-trained 的神经网络可以为图像中显著的目标产生准确的特征,这些特征可以很容易地转移到实际的任务中。

 

Noisy rotated images

对于大多数自然图像都能满足上面提到的,旋转预测模型中所引入的前提条件,而自然图像中的物体通常都是正位的(up-front posture)。这类图像通常有一个默认的方向。图像的任何旋转都会导致一个不寻常的物体方向。像 ImageNet 这样的数据集中的许多实例都有这样的观测结果,并且适用于旋转预测任务。

尽管这个前提比较简单和有效,但并非总是成立的,因为有些物体的方位是不好确定的。例如一些对象从顶部观测或对称的形状(见图1)。在实践中,认识到这些图像的旋转变换是无意义的。在 RotNet 中学习的特征对旋转角度是有区别的。

我们首先描述了减少旋转标签噪声影响的方法,并在接下来的小节中介绍了与旋转无关的特征学习。

我们将数据集中的原始图像视为默认方向,并将其标记为正样本。未标记的样本包括所有旋转的副本,其中一些在旋转后仍在默认方向。

因此,对于 RotNet 来说,这些图像自动分配的旋转标签是有噪声的。如果所有未标记的数据都被当作负样本,那么预测输入图像是否被旋转就是一个二值分类问题。

首先,训练一个 ConvNet 模型进行二分类。

我们用 MyDLNote - Network : 2020 CVPR 通过旋转特征解耦实现自监督表示学习 表示这个预训练模型估计出的图像为正的概率。我们为每个实例在交叉熵损失中添加一个权值,使用可调参数

MyDLNote - Network : 2020 CVPR 通过旋转特征解耦实现自监督表示学习

  目标函数 (1) 可以用计算出的实例权重重新制定

MyDLNote - Network : 2020 CVPR 通过旋转特征解耦实现自监督表示学习

 可以预测图像旋转,同时减轻噪声样本的影响。

 

 

后面关于特征解耦的部分,暂时没看懂。我会持续更新吧。