论文阅读笔记《DPGN: Distribution Propagation Graph Network for Few-shot Learning》

核心思想

本文提出一种基于图神经网络的小样本学习算法（DPGN）。先前基于图神经网络的小样本算法通常将每个样本当作一个结点，然后通过结点之间的关系，来推导出未知结点的类别。本文不仅关心样本与样本之间的关系，而且关注样本的分布之间的关系。本文提出了一个双图神经网络模型，一个图用于描述样本（PG），一个图用于描述分布（DG）。PG通过聚合每个样本和其他所有样本之间的关系来得到DG，DG又利用每对样本分布之间的关系来优化PG，这种循环信息传递关系将实例级别和分布级别的关系融合起来。本文提出模型的整体流程如下图所示
论文阅读笔记《DPGN: Distribution Propagation Graph Network for Few-shot Learning》
$G_l^p=(V_l^p,E_l^p)$ ，表示第 $l$ 代样本图PG， $V_l^p=\left \{v^p_{l,i}\right \}$ 表示节点集合，每个节点表示一个样本的特征向量， $E_l^p=\left \{e^p_{l,ij}\right \}$ 表示边集合，每个边描述两个样本之间的关系； $G_l^d=(V_l^d,E_l^d)$ ，表示第 $l$ 代分布图DG， $V_l^d=\left \{v^d_{l,i}\right \}$ 表示节点集合，每个节点表示一个样本的分布， $E_l^d=\left \{e^d_{l,ij}\right \}$ 表示边集合，每个边描述两个分布之间的关系。
首先，利用特征提取网络 $f_{emb}$ 提取支持集图像和查询集图像对应的特征向量，并用其初始化第一代样本图的节点 $v_{0,i}^p$
论文阅读笔记《DPGN: Distribution Propagation Graph Network for Few-shot Learning》
然后利用结点间的相似性关系来描述边 $e_{0,ij}^p$

对于第 $l>0$ 代的样本图，边的计算方式如下

其中 $f_{e_l^p}$ 表示一个编码网络。得到样本图PG后，接着计算分布图DG，DG的目的是整合每个节点之间的联系，从而得到分布之间的关系，因此DG的每个节点 $v_{l,i}^d$ 都是一个NK维(N-way K-shot)的特征向量，第 $j$ 行就描述了样本 $i$ 和样本 $j$ 之间的关系。第一代分布图DG节点 $v_{0,i}^d$ 的初始化方式如下
论文阅读笔记《DPGN: Distribution Propagation Graph Network for Few-shot Learning》
$||$ 表示级联操作， $y_i$ 表示样本 $i$ 的标签，如果 $y_i=y_j$ 则 $\delta(y_i,y_j)=1$ ，否则为0。对于 $l>0$ 代的分布图，其节点计算方式如下

其聚合了样本图中每个节点之间的关系 $e^p_{l,ij}$ 和上一代分布图中该节点的信息 $v^d_{l-1,i}$ ， $P2D$ 表示PG到DG的传播过程。分布图DG中边的计算方式与PG类似，计算过程如下
论文阅读笔记《DPGN: Distribution Propagation Graph Network for Few-shot Learning》

其表征了每个分布之间的相似性关系。最后，利用DG推导出下一代样本图PG中的节点信息，计算过程如下

$D2P$ 表示DG到PG的聚合网络。整个更新过程如下图所示
论文阅读笔记《DPGN: Distribution Propagation Graph Network for Few-shot Learning》
DPGN的整个传播过程可以概括为

由样本图的边 $E_l^p$ 得到分布图的节点 $V^d_l$ ，再得到分布图的边 $E_l^d$ ，进而推导出样本图的节点 $V^p_{l}$ ，最后得到下一代样本的边 $E_{l+1}^p$ 完成一个循环过程。

实现过程

网络结构

特征提取网络可采用任意卷积神经网络结构（ConvNet-4，ResNet-12，ResNet-18等）； $f_{e_l^p}$ 和 $f_{e_l^d}$ 均是由两个Conv-BN-ReLU的卷积块构成； $P2D$ 是由一个带有ReLU的全连接层构成； $D2P$ 由两个Conv-BN-ReLU的卷积块构成。

损失函数

本文最终预测结果计算方式如下
论文阅读笔记《DPGN: Distribution Propagation Graph Network for Few-shot Learning》
损失函数包含两个部分：样本损失和分布损失。样本损失计算过程如下

分布损失计算过程如下

总的损失函数为

可以看到是将所有代图模型的结果都进行了损失计算。