极简笔记 Unsupervised Discovery of Object Landmarks as Structural Representations

Unsupervised Discovery of Object Landmarks as Structural Representations

本文的核心是提出一种无监督的方法检测物体的关键点。这个具有语义性质的关键点不是人为定义的而是自动学得的。
极简笔记 Unsupervised Discovery of Object Landmarks as Structural Representations

文章主要思路是利用autoencoder模型，在中间部分添加各种loss约束引导检测的关键点heatmap的生成。主要架构见上图，encoder部分有俩不同的hourglass组成，上面一个得到K+1个channel的heatmap（K个关键点+背景），在此添加三个约束：
1. Concentration constraint，计算单个heatmap两个维度的方差，使它们尽量小，这样就可以尽量集中到一个点；
2. Separation constraint，使得每个channel得到的关键点尽量分开
3. Equivariance constraint，对输入图像做可控的扰动（放缩、旋转等变化），要求对应的关键点位置产生相应变化，即具有不变性。

因为是autoencoder模型，还需要做decoder计算与原图的重构误差。但是只有关键点的信息不足以重建图像，因此用了第二个encoder产生又一个feature map $F$ （通道数不是K+1）用于描述重构所需信息。然后每个关键点的heatmap作为attention map乘上 $F$ 之后再做一个关键点相关的降维线性变换 $W_{k}$ 得到关键点对应的特征描述 $f_{k}$ ，而且 $f_{k}$ 的维度比 $F$ 通道数少。把所有关键点的特征合并得到 $f = (f_{1}, f_{2}, . . ., f_{k})$ 。在此基础上开始做decoder步骤。

在encoder步骤中已经可以得到了关键点坐标，以这个坐标为中心产生高斯分布作为 ${\tilde{R}}_{k}$ ，一起做channel的归一化得到 $\tilde{D}$ 。同时 $f_{k}$ 乘 ${\tilde{W}}_{k}$ 之后经过**函数（文章用了LeakyReLU）再与 ${\tilde{D}}_{k}$ 相乘，把所有关键点对应的 ${\tilde{D}}_{k}$ 相加得到 $\tilde{F}$ ，最后经过hourglass上采样得到原图大小输出，计算重构误差。
极简笔记 Unsupervised Discovery of Object Landmarks as Structural Representations

从文章给出的结果图中看这些非监督生成的关键点确实具有较好的不变性，但是并没有与人为语义上定义的关键点很好地重合。猜测造成这个现象的原因是Separation constraint导致的，因为从结果图上看关键点均匀分布的现象还是比较明显，这点需要继续改进。

极简笔记 Unsupervised Discovery of Object Landmarks as Structural Representations

Unsupervised Discovery of Object Landmarks as Structural Representations

相关推荐