Borrow from Anywhere: Pseudo Multi-modal Object Detection in Thermal Imagery论文笔记

文章目录

1. Insight
2. Methodology

2.1 结构介绍
2.2 相关细节和实验分析

Conclusion

Attention:

论文解读的博客原文发布于个人github论文合集欢迎关注，有想法欢迎一起讨论！私信评论均可。

后面有些语法在CSDN的markdown上不支持，导致显示bug，我就懒得改了，有需求直接访问原博客查看。

创建人	github论文汇总	个人博客	知乎论文专栏
ming71	paperdaily	chaser	专栏

论文发布日期：2019.5.21 [CVPR]<p/span>

1. Insight

本文的工作是进行红外热图的目标检测改进。红外热图如下。我感觉效果差在，由于颜色空间的压缩，红外图的很多细节纹理丢失了，所以精度不可避免地下跌。

为了解决这一问题，本文采取从RGB图像“借”特征来补充红外图像特征不明显的劣势，进而提高检测精度。

Borrow from Anywhere: Pseudo Multi-modal Object Detection in Thermal Imagery论文笔记

2. Methodology

2.1 结构介绍

pipeline比较简单。首先将输入红外图通过GAN生成RGB图像，然后同时进行输入，将最后的特征图concatenate，送到head检测。

2.2 相关细节和实验分析

参数初始化
两张图片的各自特征提取分支选用对应的预训练模型，如红外输入分支用红外预训练backbone，RGB输入分支选择ImageNet预训练参数初始化；因为最终还是回到红外图的检测上，所以RPN选择红外权重初始化。但遗憾的是，论文没说怎么训练，是不是端到端的。
I2I结构
GAN使用了两种网络分别实验，均能够完成红外到彩色图像生成（一个是NIPS的，一个是ICCV的，被引挺高），最后效果都比不融合RGB特征的效果好很多，证明这个idea确实work。
模型大小
作者自己都没意识到还有一个好处（也是一个疑点）：红外数据不如常见的RGB数据容易获取，数据集不大，为了match数据，模型选择也不能太深，所以效果一般不会显著。但是将红外转为RGB后，本质就是RGB图像的检测了，这个就能采用更深的目标检测模型了。（当然，红外图像还原成RGB这部分分支的设计还是不能过大，因为它本质来自于红外小数据）但是作者并没有加深下面的分支，而是保守地使两个分支参数容量一致。其实可以进一步实验的，甚至可以尝试一下参数共享。

Conclusion

我关注这篇文章也正是想看看他是不是在形状识别上做了工作，不过看完才发现本文并没有想到这一点，而是从简单的纹理生成再检测的思路着手。虽然这样也是一种思路，但若只是想利用形状特征来增强检测，这个流程的计算代价和复杂度显然太大了。
容易产生一个误解：既然红外和彩色图像的目标位置不变，这篇文章怎么不直接选择GAN输出的彩色图片去检测？如果用这种办法，就把性能的提高完全依赖在GAN设计的合理性上了，这样未尝不可尝试；而作者强调的是“borrow”，RGB图像只是为红外图提供更丰富的特征，并不是完全依赖其定位的，两者出发点不同。
这篇文章是CVPR 2019的workshop，虽然方法很简单，很多地方明显还能有更多的尝试，不过做出了该方向比较大的突破，所以被放到workshop也不奇怪。
最近像这种，以及压缩重建抵御对抗样本这样的还挺有意思的，思路简单，方法简单，但是效果拔群。