(Fewshot detection)Review:RepMet: Representative-based metric learning for few-shot detection
Ref
Something About Few-shot Detection
从图1中可以看出,本文中的few-shot detection中的detection并不是完整的detection过程,文章中的大致意思是:让现有的检测模型框架的 classification head 变得可以学习Distance Metric Learning 的类后验知识。
按照我自己的理解,其实是基于现有的检测模型框架,将detection模型中的classification head更改为few-shot 的classification分支,我认为这里可以是数据增强的方式来增加数据,也可以是修改model的方式来限制参数空间,还可以采用Algorithm的方式得到更好的优化路径。
本篇paper中采用的是通过优化模型,限制了参数的搜索空间,思路借鉴了Prototypical Network的分类思路。
提出Idea
与以往的Distance Metric Learning(DML)不同的是,如图2所示,作者采用采用一个end-to-end的训练流程同时学习embedding space,backbone network parameters和 representative vectors of thr training categories。
Few-shot Learning 难以应用到detection的原因?
根据文章介绍,主要原因是,检测训练的时候只要一张图片,前景和背景的ROI比率严重失衡,导致数据非常严重的的unbalance。
网络结构
如图3所示,是本文提出的DML子网络模型,用于训练embedding spaces,class posterior distribution。
input为特征提取网络最后两层全连接层输出的特征向量。
图4表示DML子网络在Classification和few-shot detection中应用的场景。
图5表示分类的实验效果,K代表representatives的数量。
图6表示检测的实验效果。
实验结果
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ae5kimex-1576308239883)(/home/xyang01/Downloads/DeepinScreenshot_select-area_20191104120212.png?raw=true)]
表1表示分类的结果,可以看出对于花的分类效果不太好,可能是花的品种太多了吧
表2中的baseline是FPN-DCN检测器[3]的变体(把其最后的特征输出作为embedding,并且使用最近邻方法来分类兴趣区域);baseline+embed也是FPN-DCN检测器的变体;trained representatives表示使用由训练得到的representatives;episode representatives表示使用从样本的embedding向量中选择的representatives;实验中的embedding模块的结构是1024-256的两层全连接层,前一层加了Relu,后一层后加了L2 normalization;K = 5;每个epoch对representatives进行一次k-means聚类。
Conclusion
本文提出的方法基于 Distance Metric Learning, 很好的提高了分类的效果,但没有直接涉及到目标location,更多的是面向分类。
我非常想做实践部分,但是github上找到的代码可能还有写问题(Detection部分的代码会报错)