Deep Metric Learning by Online Soft Mining and Class-Aware Attention

提出OSM和CAA，分别解决两个问题：

对于anchor，以前的方法是在一个batch内找到最难的p和最容易的n，然后pull p， push n (对比损失将pull和push分开做而triplet是一起做，但都是这个过程)，剩下的p和n都没要，这太浪费了，因为其他p包含了充足的类内变化，用上才是正道；其他n本文的意思是也用上了，但其实那些不困难(和a的距离太大)的n被0进行加权(个人觉得用个 $\epsilon$ 可能更合理)，本质上和没用一样，最终每个pair都有一个OSM得分，用于最终损失计算的加权。
有的样本其实是奇异样本，应该被drop掉或者给其比较小的attention (权重)。如下：
对于左边的anchor，第三张图可能是真的难p，但是第二张图就是网络可能更关注误检的黑裙女生，这种样本就是所谓的奇异点，不应该当作很难的p而应该drop掉或更少关注。

1. OSM

对于正pairs的OSM得分计算如下：

即pair特征(L2归一化后)之间的欧式距离经过0均值的高斯变换结果。结果表示正pair之间越相似则得分越高。
对于负pairs的OSM得分计算如下：

其中 $\alpha$ 是个margin阈值，距离太大(大于阈值)的负pair的得分为0，其余的不为0。

2. CAA

怎么知道谁是奇异值？
softmax的输出就可以说明问题，奇异值的特征(如特征主要集中在图1中黑群女生)必然不能很好的做分类任务，那么其得分就很低，如是CAA得分计算如下(softmax)：
Deep Metric Learning by Online Soft Mining and Class-Aware Attention
以C=3分类为例，奇异点的特征 $f$ 提的可能是(0.33, 0.34, 0.33)，而对应 $c$ 为(0,1,0)。而其余的特征提的可能就比较好，如(0.9,0.05,0.05) $\in$ (1,0,0)， (0.1,0.1,0.8) $\in$ (0,0,1)，则奇异点计算结果为 $0.34/(0.34+0.9+0.8)=0.167$ ,而其余点计算结果就大得多。而C很大如751时，这种差距就更明显。