论文笔记：Multi-Label Image Recognition with Graph Convolutional Networks

前言：

多标签分类问题通常要考虑标签之间的依赖关系，因为有依赖关系的一组标签通常同时出现图片中。基于此此篇文章提出了一种基于图卷积神经网络(GCN)的多标签分类模型，模型在标签上构建有向图借此表达出标签之间的依赖关系。同时应用传统卷积神经网络(CNN)用于图像特征的提取。并由GCN将类别标记映射（mapping）为对应类别分类器。这些分类器应用于另一个子网络提取到的图像描述。从而使整个网络可以端到端的训练

1.多标签图像识别应用及挑战

多标签图像识别有很多应用领域，例如医学图像诊断，行人\人类属性识别，零售识别等领域等

相较于传统多类别图像分类的挑战在于：其输出空间随着类别数目的加增而呈指数增大

2.传统解决方法局限性及新的思考

传统解决方法：分离看待目标对象，将多标签问题转换成一组二分类问题，检测感兴趣的目标物体是否存在，随着CNNs的发展，二分类的性能大幅度提升，使得此种方法可以作为一种多标签分类的解决方法，但是这些方法忽视了物体之间复杂的拓扑结构，具有局限性。基于此产生了两种解决方案

方案一：基于概率图模型或循环神经网络(RNN)，显式地对标签依赖性进行建模
方案二：通过注意力机制对标签之间的全局相关性进行隐式建模，该方法考虑的是图像中被注意区域之间的关系（可视为局部相关性）。不过即便如此，该方法还是忽略了图像中标签之间的全局相关性（全局相关性需要通过单张图像之外的知识才能推断出来）

3.ML-GCN

基于此提出了基于图卷积网络（GCN）的全新模型，即 ML-GCN（Multi-Label Graph Convolutional Network），用于建立多标签之间的相关性，该方法有其它方法无法具备的扩展性和灵活性。
通过建立有向图的形式分析标签之间出现的逻辑关系
论文笔记：Multi-Label Image Recognition with Graph Convolutional Networks

除了将目标分类器视为一组待学习的独立参数向量外，还提出一种可从标签的先验特征（如词嵌入向量）学习相互依赖的目标分类器方法，它通过一个基于 GCN 的映射函数来实现。随后，生成的分类器再被应用于由另一个子网络生成的图像特征，以实现端到端训练。

重点：

1.由于这些从词嵌入向量到分类器的映射参数是在所有类别（如图像标签）之间共享，因此来自所有分类器的梯度都会影响这个基于 GCN 的分类器生成函数。这可以对标签的相关性进行隐式建模
2.由于分类器的学习涉及到对标签相关性的建模，因此本文设计了一个有效的标签相关系数矩阵，来引导信息在 GCN 各个节点之间的传递。

此篇文章主要贡献：

1.提出了一种新颖的端到端可训练多标签图像识别框架，该框架采用GCN 将标签标签表示形式（例如单词嵌入）映射到相互依赖的对象分类器。
2.对相关设计进行深入研究GCN矩阵，并提出有效的重新加权同时缓解过度拟合和过度平滑的问题。
3.在两个基准多标签上评估此方法，始终比以前的竞争方法具有更高的性能。

4.GCN优势

建立标签之间的联系，相较于RNN方法，图的方法更有优势，因为图结构的特点意味着它包含了更多标签之间的依赖关系，并且从全局角度出发，可以收集到更加丰富的信息来预测结果信息。因此在此篇文章中利用图结构的相关依赖性来捕获和浏览标签。具体来说，利用GCN在每个图像标签之间通过学习建立一个相互依存的分类器，这些分类器从标签图中吸收信息，进一步应用于全局。最终多标签预测的图像表示。它是评估标签共现的更明确方法。实验结果证明了此方法是有效的，并且可以以端到端的方式训练模型。

5.重点：ML-GCN方法

5.1ML-GCN方法动机

如何有效获取目标标签之间的相关性？如何利用这些标签相关性提升分类表现？这是多标签图像识别的两个重要问题。本文使用图（graph）来对标签之间的相互依赖关系进行建模。这种方法能够灵活地获取标签空间中的拓扑结构。

图中的每个节点（标签）都表示为该标签的词嵌入向量，并提出使用 GCN 直接将词嵌入向量映射到一组互相依赖的分类器上，这些分类器进一步又可直接应用于图像特征以进行分类。基于 GCN 的模型有两个设计动机：

由于从词嵌入向量到分类器的映射参数在所有类别中是共享的，所以习得的分类器能够在词嵌入空间中（语义相关的概念在词嵌入空间中彼此临近）保留较弱的语义结构。与此同时，对于可以对标签依赖性进行隐式建模的分类器函数，所有分类器的梯度都会对它产生影响。
基于标签的共现模式，该方法设计了一个全新的标签相关系数矩阵，可显式地用 GCN 建模标签相关性，让节点的特征在更新时也能从相关联的节点（标签）吸收信息。

5.2GCN简述

图卷积网络可用于进行半监督分类任务，其核心思想是通过节点之间的信息传播来更新节点的表示。

不同于在一张图像局部欧氏结构之上进行操作的标准卷积方法，GCN 的目标是学习一个图 G 的函数
论文笔记：Multi-Label Image Recognition with Graph Convolutional Networks

相应变量注释如下：

1. ${H^l}{\epsilon}{\mathbb{R}}^{nxd}$ ：
H作为特征描述
n代表着图中节点的数量，也就对应于标签的个数
d代表每个节点的特征向量的维度，也就是词嵌入的维度
2. ${A}{\epsilon}{\mathbb{R}}^{nxn}$ ：
A代表着对应的相关系数矩阵
3. ${H^{l+1}}{\epsilon}{\mathbb{R}}^{nxd^{\prime}}$ ：
$d^{\prime}$ 代表着转换后的特征向量维度
4. $\hat{A}:{\epsilon}{\mathbb{R}}^{nxn}$ :
归一化的相关系数矩阵
5. ${W^{l}}{\epsilon}{\mathbb{R}}^{dxd^{\prime}}$ ：
需要学习的转换矩阵
6. $h()$ ：
非线性变换在此文中代表LeakyReLu

5.3GCN用于多标签识别

GCN 的设计初衷是半监督分类，其节点层面的输出结果是每个节点的预测分数。不同的是，在 ML-GCN 中，每个 GCN 节点的最终输出都被设计成与标签相关的分类器。此外，不同于其它任务，这里的多标签图像分类任务没有提供预定义的图结构（即相关系数矩阵）。这需要从头构建相关系数矩阵。