Destruction and Construction Learning for Fine-grained Image Recognition

abstract

本文提出一种“破坏和构件的学习”简称为DCL的方法，来增加细粒度识别的难度，强行让分类模型获取专家的知识。提出的方法在训练期间不需要任何额外知识，在预测时除了标准分类网络外，没有计算开销。

1. Introduction

细粒度引起广泛研究，现在研究细粒度大都两种方法，第一：首先定位鉴别对象部分，然后根据鉴别区域进行分类，这些两步方法大多需要在对象或部件上添加额外的包围框注释，而收集这些注释的开销很大。第二：试图通过注意机制在无监督的情况下自动定位识别区域，因此不需要额外的标注，但是增加了额外计算。

因此作者提出了一种新的方法：先对图像进行打乱，这样可以强调局部细节。并且：一方面，DCL自动定位识别区域，因此在培训时不需要任何额外的知识。另一方面，DCL结构只在训练阶段采用，因此在推理时不会引入计算开销。作者认为在细粒度中，局部细节比全局细节更加重要，因为这些需要经细粒度识别的网络在大体上差不多，就是在细节上不相同，打乱之后，迫使进行局部细节识别。作者说这种打乱（文中称：RCM）并不是全优的，也有自己的缺点。RCM引入了几个嘈杂的可视模式。为了抵消负面影响，我们使用了一种对抗性损失来区分原始图像和破坏图像。因此，噪声模式的影响可以最小化，只保留有益的局部细节。从概念上讲，对抗性损失和分类损失以对抗性的方式工作，以仔细学习“破坏”。

Destruction and Construction Learning for Fine-grained Image Recognition

2. Related works

就介绍了细粒度识别的方法，框架啥的。。

3. Proposed Method

Destruction and Construction Learning for Fine-grained Image Recognition

3.1. Destruction Learning

3.1.1 Region Confusion Mechanism打乱机制

过程：先输入一个图像叫它I，然后把它分成N*N个子区域，把分成的子区域叫 Destruction and Construction Learning for Fine-grained Image Recognition ，翻不下去了。。。下面这图看的这位博主的：https://blog.csdn.net/zsx1713366249/article/details/92370490

Destruction and Construction Learning for Fine-grained Image Recognition

意思就是即使我打乱，我也不是随意的打乱的，就是用算法控制一下，只把差不多周围搞一下，别动的太乱太乱。

初始图像 Destruction and Construction Learning for Fine-grained Image Recognition ，破坏后的图像，以及其相对应的一对多标签（细粒度类别）,组合为用于训练模型。分类网络将输入图像映射为一个概率分布向量, 其中表示分类网络中所有可学习的参数。分类网络的损失函数为：