论文阅读笔记《Learning to Compare: Relation Network for Few-Shot Learning》

核心思想

  本文是继Siamese Network, Matching Network 和 Prototypical Network之后又一篇采用度量学习思路解决小样本分类任务的文章。与先前的研究聚焦学习一整可迁移的嵌入式表示并采用预先定义好的固定的度量方法不同,本文进一步学习一种可迁移的深度度量方式能够比较图像之间的关系。整个网络分成两个阶段,第一阶段是一个嵌入式模块(用于提取特征信息),第二阶段是一个相关性模块(用于输出两幅图之间的相似程度得分,从而判断两幅图像是否来自同一类别)
论文阅读笔记《Learning to Compare: Relation Network for Few-Shot Learning》
  和Matching Network一样,训练集分为支持集(Support Set)和查询集(Query Set),将支持集的图像和查询集的图像分别输入嵌入式模块fφf_{\varphi},提取得到特征信息。然后将查询集图像对应的特征信息分别于支持集中各个图像对应的特征信息级联起来(也可以采用其他的连接方式),然后进入相关性模块gϕg_{\phi}计算得到相关性得分,最后输出一个独热向量(one-hot vector),表示查询集中图像属于与支持集中图像相似程度最高的那一类别。

实现过程

网络结构

  嵌入式模块仍然是采用四个卷积块构成,相关性模块现有两个卷积块,再经过两个全连接层,最后利用Sigmoid函数得到相似程度得分。特别的是,在处理同一类别包含多幅图像的数据集的时候(如:5-shot),本文采用将支持集中同一类别的图像得到的特征向量采用逐像素相加的方式得到对应类别的特征向量,再与查询集图像进行级联和计算得分的操作。
论文阅读笔记《Learning to Compare: Relation Network for Few-Shot Learning》

损失函数

  与常见分类任务采用交叉熵损失函数不同,本文采用均方差对相似程度得分进行监督,优化目标函数如下
论文阅读笔记《Learning to Compare: Relation Network for Few-Shot Learning》

训练策略

  与Matching Network等基本相同,分成多个Episode,包含支持集和查询集。

算法推广

  本文提出的模型稍加改造也可以用于zero-shot学习任务,所谓zero-shot学习就是训练集中不包含图像,只有图像对应的一个语义特征向量或者描述向量。
论文阅读笔记《Learning to Compare: Relation Network for Few-Shot Learning》
  如图所示,本文对网络进行相应的改进,对于描述向量经过两个全连接层(带有L2正则化,实现权重衰减)得到对应的特征向量,对于查询集中图像则是经过一个深层卷积神经网络(Inception or ResNet)得到对应的特征向量。然后将二者级联起来计算相似程度得分。

创新点

  • 提出一种可学习的非线性相似性度量方式,用于实现小样本甚至one-shot学习任务

算法评价

  在学习了Matching Network等一系列文章后,本文的思路是非常好理解的,就是改进了相似性度量的方式,由预先定义的固定的相似性度量函数(Matching Network——余弦距离,Prototypical Network——平方欧氏距离)或者Siamese Network中线性度量方式,升级为利用神经网络训练得到一个可学习的非线性相似性度量函数。实验结果表示在多个数据集上都取得了不错的成绩,但本文对于5-shot问题采用将特征图逐元素相加的方式来获取每个类别对应的特征信息的方式,我是存在异议的,这种做法是否过于简单粗暴?特征图直接相加是否会导致特征信息遭到破坏?这可能也是本文在5-shot任务中表现普遍较差的原因吧。本文在介绍相关工作时,将小样本学习算法分成了:学习微调算法(Learning to fine-tune)如MAML等;基于RNN的记忆型算法(RNN Memory Based Another)如MANN等和嵌入式度量学习算法(Embedding and Metric Learning Approaches )如Matching Network和本文等。我觉得是一个比较科学的分类方式,比较系统的涵盖了各个类型的小样本学习算法。

如果大家对于深度学习与计算机视觉领域感兴趣,希望获得更多的知识分享与最新的论文解读,欢迎关注我的个人公众号“深视”。论文阅读笔记《Learning to Compare: Relation Network for Few-Shot Learning》