Region based Ensemble Learning Network for Fine-grained Classifification( 基于区域的集合学习网络进行细粒度分类)

Region based Ensemble Learning Network for Fine-grained Classifification( 基于区域的集合学习网络进行细粒度分类)IEEE2019

作者:北航(Weikuang Li, Tian Wang, Guangcun Shan),南京科技大学(Mengyi Zhang), 沈阳航天大学计算机科学学院(Chuanyun Wang), 法国Troyes理工大学(Hichem Snoussi)

讲真,,,五页的论文太少见了。。。(刚打开的感受…,以及,目前莫得代码

看到一半,,,这个居然是强监督的!?比对的还都是15,16年的结果,精度也不是很高…感觉读了个寂寞。。。

摘要

提出了一个新的基于区域的集合学习网络用来细粒度分类,检测模块基于faster R-CNN来定位物体的语义区域;分类模块采用集合学习方法,针对不同的语义区域训练一组子分类器,并将它们组合在一起,得到更强的分类器。

Approach

Region based Ensemble Learning Network for Fine-grained Classifification( 基于区域的集合学习网络进行细粒度分类)

Faster R-CNN用于区域检测

与faster R-CNN的NMS不同之处在于,faster R-CNN的NMS没有考虑在语义区域定位时,每个语义区域出现至多一次这一先验知识,本文使用的特殊的NMS仅保留得分最高的区域,而丢弃其他区域。该方法能够提高检测平均值的精确度,因为它可以通过更合理地解决多次检测问题来减少误报。

集成学习分类器

对于每一个语义区域,训练一组子分类器,通过将其组合来获得更强大的分类器。

网络的输入为RGB图像,将其送入到以ResNet-50为基础的特征提取层,使用前四个阶段(stage是这么翻译么???)作为特征提取层,输入图像的大小被调整到448X448,输出的特征图大小为28X28。

利用检测器结果(测试阶段)或groundtruth(训练阶段)中语义区域的坐标,我们从特征提取层输出的特征图中切出相应区域,并通过RoIAlign操作将其大小标准化为7×7。对于每种语义区域,训练不同的子分类器。这些子分类器具有相同的体系结构。按照ResNet设计子分类器的架构,其中包含残差块,池化层和全连接层。每个语义区域被送到相应的子分类器,并且子分类器的输出是由具有softmax非线性**函数的c路全连接层生成的c维向量。最终的分类结果为(J表示属于第J类):

Region based Ensemble Learning Network for Fine-grained Classifification( 基于区域的集合学习网络进行细粒度分类)

在训练阶段,通过优化子分类器的预测结果和真实标签的所有交叉熵成本之和来训练整个分类器的网络。全部分类网络的损失函数写为:

Region based Ensemble Learning Network for Fine-grained Classifification( 基于区域的集合学习网络进行细粒度分类)

尽管网络包含不同的子分类器,但它们至少要通过一个单一的目标函数同时进行训练,从而使分类器的训练阶段成为端到端的过程。

分类模块的整个体系结构是通过共享和划分策略设计的。整个网络共享相同的特征提取层。共享的特征提取层可以提高计算效率并减少参数数量。子分类器具有相同的架构,但不共享参数。特殊语义区域的特殊子分类器使子分类器更加专注。更重要的是,集成学习旨在结合多个较弱的分类器并获得更强的分类器。多分类器之间的差异是确保总分类器更强大,更准确的必要条件。在我们的框架结构中,不同的子分类器的输入为不同的语义区域,并且针对特定的语义区域训练,这很自然地使得这些子分类器具有多样性,结合使用它们将获得更准确的分类器,并消除过拟合,从而使分类器更健壮。

数据增强

提出一种数据增强方法,该方法不仅可以扩大数据集,而且可以提高分类器对检测结果的鲁棒性。我们调整语义区域的坐标以增加数据集(中心移位、尺度缩放)。将语义部分边界框的坐标假设为x,y,w,h,其中x,y表示边界框的中心,而w,h表示边界框的宽度和高度。整个对象边界框的坐标为xo,yo,wo,ho,中心偏移通过公式更改中心坐标x,y。

Region based Ensemble Learning Network for Fine-grained Classifification( 基于区域的集合学习网络进行细粒度分类)

其中α和β是服从高斯分布的随机变量,其期望值为1,标准差为0.1。如果α或β的绝对值大于分布的标准偏差,则将其丢弃并重新挑选。大小缩放可通过等式调整语义区域边界框的大小。

Region based Ensemble Learning Network for Fine-grained Classifification( 基于区域的集合学习网络进行细粒度分类)

其中,γ和δ遵循高斯分布,其期望值为1.1,标准偏差为0.2。如果γ或δ的大小与期望值相差一个以上标准偏差,则它们也会被丢弃并重新标记。这些调整使要训练的区域与原始oracle区域注释有一些偏移。这不仅扩大了数据集,而且提高了分类器对检测结果的鲁棒性。因为在测试阶段,检测结果通常与原始Oracle区域注释有偏差。 如果在训练阶段考虑了偏移量,则分类器将在测试阶段更加稳健。

实验

鸟类数据集CUB-2011

边界框的宽和高设置为2/5W和2/5H,W和H代表整个鸟类标注框的宽和高,因为一些区域高度重合,只保留了七个语义区域。

ResNet-50作为主干,在PASCAL VOC2012数据集上进行预训练。在分类器的训练阶段,我们使用来自ImageNet [18]上经过预训练的ResNet-50的权重来初始化特征提取层,以进行1000个类别的识别,并使用随机的常规初始值设定项来初始化子分类器的权重,使用adam优化器,L2规范化用于缓解过拟合。

类别的识别,并使用随机的常规初始值设定项来初始化子分类器的权重,使用adam优化器,L2规范化用于缓解过拟合。

Region based Ensemble Learning Network for Fine-grained Classifification( 基于区域的集合学习网络进行细粒度分类)