Nested Network with Two-Stream Pyramid for Salient Object Detection in Optical Remote Sensing Images

该论文提出LV-Net,其包含两个关键模块:一个双流的金字塔模块(L形状),一个使用了nested connection的编码器-解码器模块。具体的,该L形状的模块使用双流金字塔结构,将一系列互补的信息层次化的抽取出来。这一步,可以保留显著对象的的多样尺度和局部细节。V形状的模块,逐渐的将编码器的细节特征与解码器的语义特征通过nested connections的方式连接起来,目的是抑制杂乱的背景且对于显著性目标进行高亮化处理。

本文中,自然场景图像(总是RGB格式的)指的是由手持照相机或悬挂在地面上的某一个物体上的相机捕捉到的图像,其中,由此类相机拍摄到的图像中对象都是竖直方向的。

常见的目标检测,显著性目标检测和异常检测三者之间的差别

目标检测是一个以检测出所有物体的通用性任务,显著性目标检测只管至于发现显著性目标,异常检测用于发现异常对象。同时,目标检测和异常检测总是使用bounding boxes来描画对象,而显著性目标检测是产生像素级别的显著性概率图

与其他论文相同,使用的诗句来源于Google Earth,且分辨路范围为0.5m-2m。与自然场景图象相比,RSIs中的对象总是有很多不同的朝向,尺寸和类型。同时,光学RSI图像与高频谱图像不同,高频谱图像具有更多的频带信息。而光学RSI包含很多人眼友好的颜色表示。

由于光学RSI总是以一个高角度拍摄户外,所以,就可能存在多样尺度的对象,多样化的场景和目标类型,杂乱的背景和阴影噪声。右时,在真实户外场景中,甚至不存在显著区域,如沙漠,森林和大海。

本文,提出一个新颖的卷积神经网络架构,来在光学RSI中进行显著对象检测。

一个端到端网络,包含一个L型和一个V型的模型,该模型在可变的场景和对象模式中有很好的通用性

L型模块学习一系列互补的特征来解决显著对象尺度多样性的问题,且能捕捉局部细节,V型模块可以自动发现具有可标识性的特征来抑制杂乱的背景且将显著对象高亮出来。

开放了有800张图片、带像素级金标准的RSI数据集

在自然场景图像中的显著性对象检测

由下至上的检测模型是刺激驱动的,目的是探索低层可视化特征。另一方面,一些可视化先验被用来描述显著对象的属性。这些可视化先验指的是来自于人的视觉系统的一些可视化感受,如对比度先验,背景先验和压实度先验。

由上到下的显著性检测模型是任务驱动的,将有监督学习和金标准限定在一起特别的,深度学习方法很强大。很多论文来提取有效的特征,从而刻画显著性对象。Deng提出一个并行的残差提纯网络,残差提纯网络用来在松散的显著图和金标准之间并行的学习两者之间的差异。

有一点很值得指出,那就是,虽然有很多声称自己是光学RSI中用于显著性检测的方法,但是他们中的很多是用于实现其他的光学RSI处理任务,比如ROI提取和通用的目标检测。

 

Nested Network with Two-Stream Pyramid for Salient Object Detection in Optical Remote Sensing Images

框架:输入为光学RSI,输出为它的显著性图。

L型模块用于解决显著性对象的不同尺度问题。首先,迭代的将输入进行下采样,来产生输入的金字塔。然后,对于每一个下采样了的输入进行多尺度特征表示,从而形成一个多尺度特征金字塔。输入的金字塔保留了原始细节特征,且特征金字塔提供了语义特征。细节和语义特征在显著性对象检测任务中都是至关重要的。因此,将多分辨率输入和多尺度特征进行串联形成双流金字塔,得到一个互补的特征。

仅细节和语义特征并不够,于是由双流金字塔结构层次化抽取的互补特征被传入一个编码器-解码器模块,该模块使用嵌套链接,逐步的整合编码器细节特征和编码器语义特征。

最后,输入光学RSI的显著性区域由整合的特征以深度有监督的方式进行预测。

从特征的角度考虑,L和V的结合产生的特征更全面。从网络优化的角度来看,网路的目的是学习到具有判别力的特征表示,从而辅助显著性检测,且提升最终显著性性能。

特征逐渐的变得具有判别力,即它可以有效的区分前景和背景。同时,在编码器路径上,细节特征(边界和问题)由于下采样的原因,变得越来越抽象,杂乱的具有噪声的背景也逐渐消失,这是因为在解码器路径上存在嵌套连接和上采样。