Improved Embeddings with Easy Positive Triplet Mining

WACV 2020

之前看到很多triplet selection strategy都是基于寻找negative,比如facenet中提出的semi-hard negative(不用hard negative是因为the hardest negative examples leads to bad training behavior)==针对hard negative可以看另外一篇论文:Hard negative examples are hard, but useful.

本文主要是讨论easy positive对神经网络的影响。

与传统方式将所有training image按照相同类别map到同一个point不同的是(很大程度上忽略了语义信息,详见下图),easy positive主要是将training image map到同类中最相似的一些examples中(有soft label中多中心的思想)。

举个例子,在CUB这个数据集中,可以看到两行的鸟在羽毛颜色上差别很大,但是是属于同一种鸟,如果强制将其map到超球面上一个点上的话,就会很大程度上丢失其语义信息(例如毛色),那么此时神经网络学习到的特征不够generalization。

Improved Embeddings with Easy Positive Triplet Mining

基于上述问题,从相似的正例学习特征,比如上图两个公的cardinals带有一点点的角度变化,可以帮助神经网络学习到更有语义的特征,同时这个特别具有普适性。在上图中神经网络会学习到cardinal的红色特征,而这个红色特征将会对未知的红色和非红色的鸟加以区分。而如果是传统方法,则红色信息将会和棕色混合在一起表征。但实际中,未知的数据中,只有小概率的相同类的鸟有红色和棕色混合。所以这种混合信息不具有普适性(相对于只学红色信息)。摘自知乎

论文中介绍了Hard Negative Mining(Semi-Hard Negative)、Easy Negative Mining(无意义)、Hard Positive Mining[论文7中指出其弊端:无法适用所有的数据集,受到Gsize影响比较大]、Easy Positive Mining(本文)

从图2可以看出,Npairs/HP/BA三种方法得到的training data的pairs之间相似度在0.9-1.0之间占多数,表明聚类紧凑,(point),而基于EP方法得出来的聚类比较分散。

从图6,降维可视化工具T-SNE结果显示,传统方法过于紧凑的将训练集聚合(点状),而EP方法则形成了类似流行的cluster,这种cluster很好的表现出数据集本身就存在巨大的类内差异的问题。

Improved Embeddings with Easy Positive Triplet Mining
Improved Embeddings with Easy Positive Triplet Mining

Easy Positive Triplet Loss

选择easy positive example,再按照不同的选择策略选择 negative examples(all possible negative examples/Hard Negative/Semi-Hard Negative)

那么相应的N-pair loss为:
Improved Embeddings with Easy Positive Triplet Mining
另外,还可以比较easy positive和hard positive[论文7]、及hard positive hard negative
Improved Embeddings with Easy Positive Triplet Mining