Multi-Label Image Recognition with Graph Convolutional Networks【基于图卷积网络的多标签图像识别模型】

文章目录

导语
介绍

方法
动机
图卷积网络简介
用于多标签识别的GCN
相关系数矩阵

结论

转自旷视研究院
论文名称：Multi-Label Image Recognition with Graph Convolutional Networks

论文链接：https://arxiv.org/abs/1904.03582

导语

多标签图像识别（multi-label image recognition）任务的目标是预测一张图像中出现的多个物体标签，其在搜索引擎、推荐系统中应用广泛，长期以来作为计算机视觉和机器学习领域一项基础研究课题备受学界业界关注。由于多个相关物体通常同时出现在一副图像之中，因此提升识别性能的一个理想方法就是针对多标记识别的核心问题，即“如何有效建模标记间的协同关系”进行探索，对标签之间的依赖性进行有效建模。

为获取和利用这种依赖性，旷视研究院提出一种基于图卷积网络（Graph Convolutional Network，GCN）的多标签分类模型。该模型通过 data-driven 方式建立标记间有向图（directed graph）并由 GCN 将类别标记映射（mapping）为对应类别分类器，以此建模类别关系，同时可提升表示学习能力。

此外针对 GCN 中的关键元素 correlation matrix 进行了深入分析和重设计，使其更胜任多标记问题。在两个多标签图像识别权威数据集上的实验结果显示，ML-GCN 明显优于目前所有的最佳方法。另外，可视化结果显示，模型习得的分类器还能保持有意义的语义拓扑结构。

介绍

多标签图像识别是计算机视觉领域的一项基本任务，其目标是识别图像中存在的一系列对象。这项技术可应用于医学诊断识别、人类属性识别和零售识别等诸多领域。相比于多类别图像分类，多标签任务的难度更大，因为其输出空间随着类别数目呈指数增大。

Multi-Label Image Recognition with Graph Convolutional Networks【基于图卷积网络的多标签图像识别模型】

图1 通过构建目标标签的有向图来建模标签依赖性【

label_A-&gt;label_B

表示当

label_A

出现的时候，

label_B

很可能出现，反过来则不一定成立。】

由于现实世界中很多物体通常会同时出现，因此对标签之间的相关性进行建模就成了多标签图像识别的关键，如图 1 所示。

解决多标签识别问题的一个朴素方法是分离地看待各个目标，通过将多标签问题转换成多组二值分类问题，预测每个目标是否存在。由于深度卷积神经网络在单标签图像分类上取得的巨大成功，二值分类的性能已得到极大提升。

但是这些方法忽视了物体之间复杂的拓扑结构，因此在本质上有局限性。正是这个缺陷促使研究员寻找能够获取并从多个角度探索标签之间相关性的方法。其中的部分方法基于概率图模型或循环神经网络（RNN），可显式地对标签依赖性进行建模。

另一个研究方向是通过注意力机制来对标签相关性进行隐式建模。该方法考虑的是图像中被注意区域之间的关系（可视为局部相关性）。不过即便如此，该方法还是忽略了图像中标签之间的全局相关性（全局相关性需要通过单张图像之外的知识才能推断出来）。

为此，旷视研究院提出基于图卷积网络（GCN）的全新模型，即 ML-GCN（Multi-Label Graph Convolutional Network），用于建立多标签之间的相关性，该方法有其它方法无法具备的扩展性和灵活性。

除了将目标分类器视为一组待学习的独立参数向量外，旷视研究院还提出一种可从标签的先验特征（如词嵌入向量）学习相互依赖的目标分类器方法，它通过一个基于 GCN 的映射函数来实现。随后，生成的分类器再被应用于由另一个子网络生成的图像特征，以实现端到端训练。

由于这些从词嵌入向量到分类器的映射参数是在所有类别（如图像标签）之间共享，因此来自所有分类器的梯度都会影响这个基于 GCN 的分类器生成函数。这可以对标签的相关性进行隐式建模。此外，由于分类器的学习涉及到对标签相关性的建模，因此本文设计了一个有效的标签相关系数矩阵，来引导信息在 GCN 各个节点之间的传递。

方法

本节将介绍这一新提出的多标签图像识别模型 ML-GCN。首先是这一方法的动机，接着是一些图卷积网络初步知识，最后是 ML-GCN 模型以及用于相关系数矩阵构建的二次加权方法。

动机

如何有效获取目标标签之间的相关性？如何利用这些标签相关性提升分类表现？这是多标签图像识别的两个重要问题。本文使用图（graph）来对标签之间的相互依赖关系进行建模。这种方法能够灵活地获取标签空间中的拓扑结构。

旷视研究员将图中的每个节点（标签）都表示为该标签的词嵌入向量，并提出使用 GCN 直接将词嵌入向量映射到一组互相依赖的分类器上，这些分类器进一步又可直接应用于图像特征以进行分类。基于 GCN 的模型有两个设计动机：

由于从词嵌入向量到分类器的映射参数在所有类别中是共享的，所以习得的分类器能够在词嵌入空间中（语义相关的概念在词嵌入空间中彼此临近）保留较弱的语义结构。与此同时，对于可以对标签依赖性进行隐式建模的分类器函数，所有分类器的梯度都会对它产生影响。
基于标签的共现模式，旷视研究员设计了一个全新的标签相关系数矩阵，可显式地用 GCN建模标签相关性，让节点的特征在更新时也能从相关联的节点（标签）吸收信息。

图卷积网络简介

图卷积网络可用于进行半监督分类任务，其核心思想是通过节点之间的信息传播来更新节点的表示。

不同于在一张图像局部欧氏结构之上进行操作的标准卷积方法，GCN 的目标是学习一个图 G的函数 f(., .)。该函数的输入是特征描述 $\boldsymbol{H}^{l} \in \mathbb{R}^{n \times d}$ 和相关系数矩阵 $\boldsymbol{A} \in \mathbb{R}^{n \times n}$ ，从而把节点特征更新为 $\boldsymbol{H}^{l+1} \in \mathbb{R}^{n \times d^{\prime}}$ 。每个 GCN 层都可以写成一个非线性函数： $\boldsymbol{H}^{l+1}=f\left(\boldsymbol{H}^{l}, \boldsymbol{A}\right)$ f(., .)可以表示为： $\boldsymbol{H}^{l+1}=h\left(\widehat{\boldsymbol{A}} \boldsymbol{H}^{l} \boldsymbol{W}^{l}\right)$ 如此一来，便可以通过堆叠多个 GCN 层来对节点之间交织的复杂关系进行建模。

用于多标签识别的GCN

GCN 的设计初衷是半监督分类，其节点层面的输出结果是每个节点的预测分数。不同的是，在 ML-GCN 中，每个 GCN 节点的最终输出都被设计成与标签相关的分类器。此外，不同于其它任务，这里的多标签图像分类任务没有提供预定义的图结构（即相关系数矩阵）。这需要从头构建相关系数矩阵。

图 2 展示了该方法的整体架构，它包含两个主要模块：图像特征学习模块和基于 GCN 的分类器学习模块。
Multi-Label Image Recognition with Graph Convolutional Networks【基于图卷积网络的多标签图像识别模型】
图 2 用于多标签图像识别的 ML-GCN 模型整体框架
【目标标签由词嵌入向量 $Z \in \mathbb{R}^{C \times d}$ 表示，C表示类别数，d表示词嵌入向量的维度，根据这些标签表示建立有向图，其中每一个节点表示一个标签。使用标签图训练堆叠的GCN，将这些标签表示映射到一组相互依赖的目标分类器中，即 $\boldsymbol{W} \in \mathbb{R}^{C \times D}$ ，D=2048，这个数据是根据采用的CNN结构决定的，这些目标分类器作用于CNN从原始图像提取的图像特征表示，从而完成多标签图像分类。】
图像特征学习：原则上可使用任意基于 CNN 的模型学习图像特征。本文在实验中使用 ResNet-101 作为实验基础模型；然后应用全局最大池化获取图像层面的特征 x： $\boldsymbol{x}=f_{\mathrm{GMP}}\left(f_{\mathrm{cnn}}\left(\boldsymbol{I} ; \theta_{\mathrm{cnn}}\right)\right) \in \mathbb{R}^{D}$ GCN 分类器学习：通过一个基于 GCN 的映射函数从标签特征学习相互依赖的目标分类器 $\boldsymbol{W}=\left\{\boldsymbol{w}_{i}\right\}_{i=1}^{C}$ 。旷视研究员使用堆叠 GCN，其中每个 GCN 层 I 的输入都取前一层 $\left(\boldsymbol{H}^{l}\right)$ 的节点特征作为输入，然后输出新的节点特征 $\boldsymbol{H}^{l+1}$ 。第一层的输入是词嵌入向量 $Z \in \mathbb{R}^{C \times d}$ ，矩阵最后一层的输出是分类器 $\boldsymbol{W} \in \mathbb{R}^{C \times D}$ 。

通过将所学到的分类器应用于图像特征，得到预测分数： $\hat{y}=W x$ 假设一张图像的真实标签是 $\boldsymbol{y} \in \mathbb{R}^{C}$ ， $y^{i}=\{0,1\}$ ，表示图像中是否有标签 $i$ ，那么整个网络可使用传统多标签分类的损失函数来训练，如下： $\mathcal{L}=\sum_{c=1}^{C} y^{c} \log \left(\sigma\left(\hat{y}^{c}\right)\right)+\left(1-y^{c}\right) \log \left(1-\sigma\left(\hat{y}^{c}\right)\right)$

结论

标签相关性建模是多标签图像识别的一大关键问题。为建模和利用这种重要信息，旷视研究院提出基于 GCN 的模型来根据先验的标签特征（比如词嵌入向量）学习互相依赖的目标分类器。

为了对标签相关性进行显式建模，文中设计了一种全新的二次加权方法，可通过平衡节点与其相邻节点来为 GCN 构建一个相关系数矩阵，以更新节点特征，从而有效缓解了妨碍 GCN 性能的两大问题：过拟合与过度平滑。定量和定性实验结果都表明新方法的优越性。