Borrow from Anywhere: Pseudo Multi-modal Object Detection in Thermal Imagery论文笔记

Attention:

论文解读的博客原文发布于个人github论文合集 欢迎关注,有想法欢迎一起讨论!私信评论均可。

后面有些语法在CSDN的markdown上不支持,导致显示bug,我就懒得改了,有需求直接访问原博客查看。

创建人 github论文汇总 个人博客 知乎论文专栏
ming71 paperdaily chaser 专栏

论文发布日期:2019.5.21 [CVPR]<p/span>

1. Insight

  本文的工作是进行红外热图的目标检测改进。红外热图如下。我感觉效果差在,由于颜色空间的压缩,红外图的很多细节纹理丢失了,所以精度不可避免地下跌。

  为了解决这一问题,本文采取从RGB图像“借”特征来补充红外图像特征不明显的劣势,进而提高检测精度。

Borrow from Anywhere: Pseudo Multi-modal Object Detection in Thermal Imagery论文笔记

2. Methodology

2.1 结构介绍

Borrow from Anywhere: Pseudo Multi-modal Object Detection in Thermal Imagery论文笔记

  pipeline比较简单。首先将输入红外图通过GAN生成RGB图像,然后同时进行输入,将最后的特征图concatenate,送到head检测。

2.2 相关细节和实验分析

  • 参数初始化
      两张图片的各自特征提取分支选用对应的预训练模型,如红外输入分支用红外预训练backbone,RGB输入分支选择ImageNet预训练参数初始化;因为最终还是回到红外图的检测上,所以RPN选择红外权重初始化。但遗憾的是,论文没说怎么训练,是不是端到端的。
  • I2I结构
      GAN使用了两种网络分别实验,均能够完成红外到彩色图像生成(一个是NIPS的,一个是ICCV的,被引挺高),最后效果都比不融合RGB特征的效果好很多,证明这个idea确实work。
  • 模型大小
      作者自己都没意识到还有一个好处(也是一个疑点):红外数据不如常见的RGB数据容易获取,数据集不大,为了match数据,模型选择也不能太深,所以效果一般不会显著。但是将红外转为RGB后,本质就是RGB图像的检测了,这个就能采用更深的目标检测模型了。(当然,红外图像还原成RGB这部分分支的设计还是不能过大,因为它本质来自于红外小数据)但是作者并没有加深下面的分支,而是保守地使两个分支参数容量一致。其实可以进一步实验的,甚至可以尝试一下参数共享。

Conclusion

  我关注这篇文章也正是想看看他是不是在形状识别上做了工作,不过看完才发现本文并没有想到这一点,而是从简单的纹理生成再检测的思路着手。虽然这样也是一种思路,但若只是想利用形状特征来增强检测,这个流程的计算代价和复杂度显然太大了。
  容易产生一个误解:既然红外和彩色图像的目标位置不变,这篇文章怎么不直接选择GAN输出的彩色图片去检测?如果用这种办法,就把性能的提高完全依赖在GAN设计的合理性上了,这样未尝不可尝试;而作者强调的是“borrow”,RGB图像只是为红外图提供更丰富的特征,并不是完全依赖其定位的,两者出发点不同。
  这篇文章是CVPR 2019的workshop,虽然方法很简单,很多地方明显还能有更多的尝试,不过做出了该方向比较大的突破,所以被放到workshop也不奇怪。
  最近像这种,以及压缩重建抵御对抗样本这样的还挺有意思的,思路简单,方法简单,但是效果拔群。