论文阅读笔记《Finding Task-Relevant Features for Few-Shot Learning by Category Traversal 》

核心思想

本文在度量学习算法的基础上提出了一种特征学习模块，用于改进原有算法特征提取网络的表征能力，进而提高小样本分类的准确性。本文设计的种类遍历模块（Category Traversal Module，CTM）可以作为一种即插即用的模块，直接添加到原有算法的网络中。相对于原有的特征提取网络，CTM有针对性地提取了“类内共有特征（intra-class commonality）”和“类间独有特征（inter-class uniqueness）”，如何理解这两种特征信息呢？作者为我们举了两个例子，如图所示
论文阅读笔记《Finding Task-Relevant Features for Few-Shot Learning by Category Traversal 》
在图a中，支持集里包含五个类别的样本，每个类别只有一个样本（one-shot），而每个样本都包含两个特征：颜色和形状；当我们给出一个查询样本（绿色+圆形）时，如果用传统的距离度量方式去计算，会发现除了和第二个样本的距离为2（颜色和形状都不同），和其他四个样本的距离都为1（颜色和形状只有一个不同），如果按照传统的度量学习方式，可能会把查询样本随机分配给四个类别中的一个。但我们仔细观察支持集中的五个样本，会发现不同的类别之间，其颜色特征都是不同的，而形状特征却存在不同类别共有一种特征，这说明颜色才是区分类别的根本特征，这种不同类别之间属性均不相同的特征就叫做“类间独有特征”。在图b中，支持集里每个类别包含四个样本（few-shot），同一类别样本的颜色特征有3个样本都是相同的，而形状特征各不相同，这就说明颜色特征是这类样本所共有的，这就是类内共有特征。
那么作者是如何有效的提取这两种特征的呢？这就需要作者设计的种类遍历模块CTM，其结构如下图所示
论文阅读笔记《Finding Task-Relevant Features for Few-Shot Learning by Category Traversal 》
CTM主要有两个部分构成：级联器（Concentrator）用于提取类内共有特征，和投影器（Projector）用于提取类间独有特征。首先，由特征提取网络获得支持集和查询集的特征信息 $f_{\theta}(S)$ 和 $f_{\theta}(Q)$ ；然后支持集的特征信息，进入级联器，在级联器中先由卷积神经网络对输入的特征图进行维度压缩，然后计算每个类别样本特征图的平均值作为输出 $o$ ，过程表示如下
论文阅读笔记《Finding Task-Relevant Features for Few-Shot Learning by Category Traversal 》
式中 $NK$ 表示输入的 $N$ 个类别，每个类别中有 $K$ 个样本，共计 $NK$ 个样本， $m_1$ 表示特征图的通道数， $d_1$ 表示特征图的尺寸，经过级联器之后，由于对每个类别的样本特征图取了平均值，因此特征图的个数压缩为 $N$ ，特征图的维度压缩为 $m_2$ ，特征图的尺寸压缩为 $d_2$ 。这一过程是为了去掉各个实例之间的差异，并提取每个类别的各个实例的共有特征。
紧接着，级联器的输出 $o$ 进入投影器，现将各个类别对应的特征图，沿特征图通道方向级联起来，然后再利用卷积神经网络压缩特征图，最后在特征图通道维度上使用softmax层，得到各个特征图对应的掩码图 $p$ ，过程表示如下
论文阅读笔记《Finding Task-Relevant Features for Few-Shot Learning by Category Traversal 》
式中级联器的输出 $o$ 经过级联操作后，特征图通道的维度变成了 $Nm_2$ ，经过投影器中CNN，压缩为 $m_3$ ，特征图尺寸也压缩为 $d_3$ ，这一过程是为了提取类间独有特征，类似于注意力机制，为每个特征图上的每个像素都赋予一个权重值。
对于特征提取网络得到的初始特征信息 $f_{\theta}(S)$ 和 $f_{\theta}(Q)$ ，通过一个变形器（Reshaper）更改形状，以匹配掩码图 $p$ ，过程如下
论文阅读笔记《Finding Task-Relevant Features for Few-Shot Learning by Category Traversal 》
最后将变形后的特征图 $r(S)$ 和 $r(Q)$ 与对应的掩码图逐元素相乘，得到改进的特征图 $I(S)$ 和 $I(Q)$ ，改进后的特征图可以直接应用于各个基于度量学习算法（Matching Net， Prototypical Net 或者 Relation Net）的分类器。

实现过程

网络结构

级联器与投影器都是由残差神经网络构成的。

损失函数

采用交叉熵损失函数

创新点

本文提出一种可用于基于度量学习的小样本分类算法的特征学习模块CTM，其通过更直接的学习类间独有特征与类内共有特征，对原有的特征提取网络进行了改进，进而提高了小样本分类的准确率

算法评价

本文提出的这一改进方案，在思想上是非常直观的，类间独有特征与类内共有特征的引入也符合人类在识别物体时的习惯，在结构上本文设计的CTM模块非常简单灵活，能够与多种算法相结合，实现即插即用的效果。最重要的是，实验结果表明与各个算法结合之后，在多个数据集中相对于baseline其分类准确率都有2%-4%的提高，这一改进无疑是巨大的，具有极高的应用价值（感觉类似SENet）。

如果大家对于深度学习与计算机视觉领域感兴趣，希望获得更多的知识分享与最新的论文解读，欢迎关注我的个人公众号“深视”。论文阅读笔记《Finding Task-Relevant Features for Few-Shot Learning by Category Traversal 》