Single Image Reflection Removal Exploiting Misaligned Training Data and Network Enhancements

Single Image Reflection Removal Exploiting Misaligned Training Data and Network Enhancements

探索通过非对齐的训练数据和改进网络进行单一图片的反射消除

0. Abstract

问题:

  1. 目前state-of-art的模型对于真实图片的泛化能力不行
  2. 带标签的训练数据不足

创新点:

  1. 改进之前的网络结构,还加了东西
  2. 提出新的loss,专门针对非对齐的训练数据

1. Introduction

主要讲了:

1.1 困难

  1. 真实拍的反射和不带反射的图片数量相对比较少,而且没有ground truth的reflection层。
  2. 当前很多方法都是说:I=T+RI = T + R,但是仅仅给II,有很多中分解方案。如果TTRR都是来自真实的场景,就会有很多重叠的分布,这样人眼都很难区分。
  3. 用CNN去训练消除反光网络,需要大量的数据。虽然可以用合成的数据,但和真实的还是有差距;收集真实的又很耗人力和物力。

1.2 解决

  1. 在网络中加入上下文信息(contextual information),这种方法在语音分割领域被证实很有用。
  2. 上下文信息提取用两种方式:一种是不同通道的,另一种是同一通道。
  3. 获取真实照片的方式变得更容易,不用固定摄像机,随便拍。

Single Image Reflection Removal Exploiting Misaligned Training Data and Network Enhancements

2. Related Work

略。

3. Approach

整体上看这里网络,就是一个前向传播网络,通过优化一个loss完成迭代。训练数据是{(In,TN)}\{(I_n,T_N)\}
Single Image Reflection Removal Exploiting Misaligned Training Data and Network Enhancements

3.1 基础的图像重建网络

在[5]的基础上改的,不要边缘检测的网络,只要重建网络。
改动如下:

  1. 简化Residual block,去除batch normalization层;
  2. 增加网络容量,即把通道数从64增加到256;
  3. 对输入数据进行增广,把vgg出来的和输入拼接作为输入。

3.2 上下文编码模块

用pyramid pooling来实现。

3.2.1 不同通道的上下文信息

用attention module机制来突出某一个通道的重要性,类似人看东西。

3.3 对齐数据的训练loss

三个loss加起来:

  1. pixel loss
  2. feature loss
  3. adversarial loss

3.4 非对齐数据的训练loss

作者发现,在越高维的特征上,优化这两者的loss,非对齐的影响就越小。所以loss有两个:

  1. Alignment-invariant loss:对齐不变性loss
  2. adversarial loss

4. Experiments

略。

5. Conclusion

略。