论文笔记(六)MELM:Min-Entropy Latent Model for Weakly Supervised Object Detection

论文泛读笔记(六)MELM:Min-Entropy Latent Model for Weakly Supervised Object Detection

这一篇论文和上一篇的C-MIL出自同一个实验室,是在CVPR2018上的基于弱监督目标检测的文章。
由于是泛读,所以只大概讲述其整体的框架。
-------------------------------------------------------------------------分割线----------------------------------------------------------------------
该模型致力于找到一种解决方案:以最小的图像分类损失和定位随机性将对象实例(正样本)与嘈杂的候选框(负样本)分开。所以MELM被分为了三个部分:集群划分,目标集群发现和目标定位。

集群划分

由于定位的随机性通常发生于得分较高的候选框中,所以作者启发式的选择了得分前200的候选框H~\tilde{H}来构造集群,HH为所有的候选框,HcH_c为第c个集群。这些集群都属于H~\tilde{H}且互不相交。
作者根据以下两步来划分集群:
1.使用得分最高且不属于任何集群的候选框来构造一个集群
2.将与集团中的框的交并比大于阈值的候选框整合进该集群

使用全局最小熵来发现目标集群

全局最小熵的定义如下:
Hc=argminHCE(x,y)(HC,θ)=argminHclogcp(y,HC;θ)H_c^*=\arg \min_{H_C} E_{(x,y)}(H_C,\theta)=\arg \min_{H_c} -\log \sum_c p(y,H_C;\theta)
其中p(y,HC;θ)p(y,H_C;\theta)为集群HcH_c的概率,定义如下:
p(y,HC;θ)=exp(1/HchHcs(y,h;θ))syexp(1/HchHcs(y,h;θ))p(y,H_C;\theta)=\frac{\exp (1/|H_c|\sum_{h\in H_c}s(y,h;\theta))}{\sum_s \sum_y \exp (1/|H_c|\sum_{h\in H_c}s(y,h;\theta))}
s(y,h;θ)s(y,h;\theta)为候选框hh的得分,为了确保发现的集群能更好的区分正样本和负样本,我们引入了权重WHcW_{H_c}
WHc=p(y,Hc;θ)yp(y,HC;θ)W_{H_c}=\frac{p(y,H_c;\theta)}{\sum_y p(y,H_C;\theta)}
所以最小熵模型就变成了:
Hc=argminHCE(x,y)(HC,θ)=argminHclogcWHcp(y,HC;θ)H_c^*=\arg \min_{H_C} E_{(x,y)}(H_C,\theta)=\arg \min_{H_c} -\log \sum_c W_{H_c}p(y,H_C;\theta)
有了以上定义,我们就设计出了如下损失函数:
L(x,y)(HC,θ)=yE(x,y)(HC,θ)(1y)hlog(1p(y,HC;θ))L_{(x,y)}(H_C,\theta)=yE_{(x,y)}(H_C,\theta)-(1-y)\sum_h \log (1-p(y,H_C;\theta))
由上可知,对于正样本,其y=1y=1,该式只有前半部分即全局最小熵被优化;对于负样本,其y=0y=0,该式只有后部分即图片的分类损失被优化。

使用局部最小熵来定位目标

通过全局最小熵发现了集群后,可以用这些集群来区分出正样本和负样本,但还是会包含一些假正样本,所以需要进一步选择出正样本来更好的定位目标。
所以定义了局部最小熵模型:
h=argminhHcE(x,y,Hc)(h,θ)h^*=\arg \min_{h\in H_c^*} E_{(x,y,H_c^*)}(h,\theta)
其中
E(x,y,Hc)(h,θ)=hΩhwhp(y,h;θ)log(p(y,h;θ))E_{(x,y,H_c^*)}(h,\theta)=-\sum_{h\in \Omega_{h^*}}w_hp(y,h;\theta)\log(p(y,h;\theta))

wh=hΩhg(h,h)p(y,h;θ)p(y,h;θ)Ωhg(h,h)w_h=\frac{\sum_{h\in \Omega_{h^*}}g(h,h^*)p(y,h;\theta)}{p(y,h;\theta)\sum_{\Omega_{h^*}}g(h,h^*)}
Ωh\Omega_{h^*}hh^*在集群中的邻居集合。g(h,h)=ea(1O(h,h))2g(h,h^*)=e^{-a(1-O(h,h^*))^2}O(h,h)O(h,h^*)是两个候选框的交并比。该分支的损失函数如下:
L(x,y,Hc)(h,θ)=E(x,y,Hc)(h,θ)L_{(x,y,H_c)}(h,\theta)=E_(x,y,H_c^*)(h,\theta)
可以看到,若该候选框与集群越聚集,g(h,h)g(h,h^*)就会越大,从而导致损失更小。
有了前面的定义后,再来看该模型的整体框架:
论文笔记(六)MELM:Min-Entropy Latent Model for Weakly Supervised Object Detection可以看到,该模型还是一个从粗到细的过程,先通过前三步得到一个伪标签框(Pseudo Object Label)然后再根据该伪标签框训练一个强监督检测器,来对候选框进行偏移值回归,以得到更加精确的目标位置。