图像显著性论文（一）—A Model of saliency Based Visual Attention for Rapid Scene Analysis

这篇文章是图像显著性领域最具代表性的文章，是在1998年Itti等人提出来的，到目前为止引用的次数超过了5000，是多么可怕的数字，在它的基础上发展起来的有关图像显著性论文更是数不胜数，论文的提出主要是受到灵长类动物早期视觉系统的神经结构和行为所启发而产生了视觉注意系统。灵长类动物具有很强的实时处理复杂场景的能力，视觉信息进行深入的处理之前，对所收集到的感觉信息进行选择，这些选择可能减少场景理解的复杂性，这个选择过程在一个空间有限的视野区域即所谓的注意焦点（focus of attention， FOA）中完成的，它搜索场景的方式可以是快速、自下而上（bottom-up，BU）、显著驱动和任务独立的方式，也可以是慢速、自上而下（top-down，TD）、意志控制和任务相关的方式。注意模型包括“动态路由”模型，在此模型中，通过皮层视觉继承，从一个小的视野区域中得到的信息可以不断前行。通过皮层连接的动态修正或在TD和BU的控制下对活跃区建立特定的瞬时模式，来选择注意区域。

这篇文章所使用的模型建立在由Koch和Ullman所提出的生物模型和其他几个模型。它和所谓的特征整合模型相关，解释了人类视觉搜索策略。视觉输入首先被分为一系列特征地形图。然后在每个图中，不同的空间位置通过竞争获取显著性，只有从周围脱颖而出的位置才能保留。所有的特征图以纯粹的BU方式输入到高级的显著性图，它对整个视觉场景的局部醒目度进行地形编码。在灵长类动物中，人们相信这种图存在于后顶叶皮层（posterior parietal cortex）中，同时也存在于枕核丘脑（pulvinar nuclei ofthalamus）中。模型的显著性图被认为是产生注意转移的内部动力。因此这个模型表示了BU显著性可以引导注意转移，不需要TD。这个模型在可以进行并行处理，提高运算速度，而且可以根据特征的重要性，为特征加上权值，特征越重要，权值越大。（感觉是对文中的翻译，在网上也有PPT和论文介绍）

1、模型

图像显著性论文

上图为整个模型的结构图，首先输入一张彩色图片，采用高斯金字塔对该图片进行下采样，生成9张尺度图，其中尺度0表示该尺度图像与原图像的像素面积比例是1：1，尺度8表示该尺度图像与源图像面积为1：256。“Center-surround” difference operations，即*周边差操作，是根据人眼生理结构设计的。人眼感受野对于视觉信息输入中反差大的特征反应强烈，例如*亮周边暗的情况、*是绿色周边是红色的情况等，这都属于反差较大的视觉信息。在高斯金字塔中，尺度较大的图像细节信息较多，而尺度较小的图像由于高斯平滑和减抽样操作使得其更能反映出局部的图像背景信息，因而将尺度较大的图像和尺度较小的图像进行跨尺度减操作（across-scale），能得到局部中心和周边背景信息的反差信息。跨尺度减的具体算法如下：通过将代表周边背景信息的较小尺度的图像进行线性插值，使之与代表中心信息的较大尺度的图像具有相同大小，然后进行点对点的减操作，即*周边差操作，这样的跨尺度减操作使用符号Θ表示。对每个特征通道的高斯金字塔进行*周边差操作，依次检测图像中的特征不联系性，即中心和周边背景信息反差对比强烈的区域，很好地模仿了视网膜上探测突出目标的生理机制。在模型中，代表中心信息的图像尺度c取c∈{2,3,4}，代表周边背景信息的图像尺度s取s=c+δ，其中δ∈{3,4}，从而在每个特征通道里可以产生6个尺度对，即{2-5,2-6,3-6,3-7,4-7,4-8}，在每个特征通道可以产生6张*周边差结果图，所以7个通道共有42张*周边差图，*周边差结果图在该模型中被称为特征图（Feature Map）。

2、早期视觉特征提取

①、亮度提取，用r，g，b分别表示图像红、绿、蓝三个通道的值，因此亮度I可以表示为I=（r+g+b）/3，由于输入图片是9个尺度的高斯金字塔图片，所以I也对于9个尺度高斯金子塔亮度图。

②、颜色提取，r，g，b通道采用I进行归一化以从亮度中解耦色调。产生了四个宽调谐（broadly-tuned）的颜色通道，从这些颜色通道中产生四个高斯金字塔R,G,B,Y。

R=r-(g+b)/2,G=g-(r+b)/2,B=b-(r+g)/2,Y=(r+g)/2-|r-g|/2-b,如果为负数则设为0。

③、方向特征，方向特征主要是使用Gabor滤波器对图像的亮度特征在0°，45°，90°，135°四个主要方向上进行滤波得到的。因此，Gabor滤波器可以很好地模拟人类视皮层简单细胞的信号处理特点，其结果直接体现了图像局部方向特征的信息。在Gabor滤波器某个方向的滤波结果中，给定区域的能量可以反映该区域灰度图在该方向的特征是否强烈，即反映了区域内的该方向的直线或者规则纹理的朝向特征是否明显。因此方向特征的提取可以直接使用几个方向的Gabor滤波器进行滤波获得。

第一组特征图集：中心细尺度c和周围粗尺度s之间的中心围绕差值产生特征图。模拟灵长类动物的中心围绕机制，所有类型的敏感性是在六个I(c,s)图（六尺度）中同时计算的：

I(c,s)=|I(c)ΘI(s)| c∈（2,3,4）,s=s+δ,δ∈（3,4）

第二组特征图集：模拟皮层中的“颜色双竞争” 系统表示：在接受野中心，神经元被一种颜色**而禁止另外一种颜色，而在周围区域则是相反的。在主视觉皮层中，红/绿，绿/红，蓝/黄，黄/蓝颜色对都存在这种空间和色彩竞争关系。因此，产生RG(c,s)和BY(c,s)特征图来反映双竞争关系。

RG(c,s)=|(R(c)-G(c))Θ(G(s)-R(s))|

BY(c,s)=|(B(c)-Y(c))Θ(Y(s)-B(s))|

第三组特征图集：采用方向Gabor金字塔得到局部方向信息，采用4角度和6尺度来表示角度和方向。最后得到方向特征图：O(c,s,θ)=|O(c,θ)ΘO(s,θ)|;

总体来说，计算出来了42个特征图：6个亮度图，12个颜色图和24个方向图。

3、显著性图

显著性图的目的是通过显著性的空间分布来表示醒目度（conspicuity-saliency）或显著度：在视野中每个位置用一个定量向量表示，引导注意位置的选择。通过一个动态神经网络模型，特征图的组合可以向显著性图提供BU输入。对不同的的特征图表示了不可比较的模态的先验信息，有不同的动态范围和提取机制。42个特征图结合时，在一些特征图中表现非常强的显著目标可能被其它更多的特征图的噪声或不显著的目标所掩盖。在缺少TD监督的情况下，采用一个归一化操作算子N(.)，整体提升那些有部分强刺激峰值（醒目位置）的特征图，而整体抑制那些包含大量可比峰值响应。

归一化计算方法：

①、将所有图的取值固定为[0,M]，消除依赖于模态的幅值差异；

②、计算图中最大值M和其他所有局部极值的平均值m；

③、整幅图像乘以（M-m）* （M-m）。

归一化算子模拟了皮层旁侧禁止机制：通过特定的生理连接，邻域中相似的特征互相禁止。通过跨尺度相加，特征图被结合成3个醒目度图（conspicuity maps），I表示灰度，C表示颜色，O表示方向，三个醒目性图经过归一化后，求和，作为显著性图的最终输入S。任何时候，显著性图（SM）的最大值定义了最显著的图像位置，为注意焦点（FOA）定向

4、关注焦点的定位与转移（这部分没仔细了解，只是引用了其他学者的论文，如果有更详细的解答，不妨大家一起分享）

显著图是对场景中突出特征的反映，关注焦点在显著图的指导下定位到图像中的显著位置、并按照显著性降序在图像中进行跳转。通过胜者为王（Winner-take-all，WTA）神经竞争网络，能够使关注焦点自动选择定位到最显著特征所在的位置。当出现若干显著度相同的显著点时，关注焦点将依照Gestalt原则中的“临近原则”转向距离上一次关注焦点最近的显著位置。另外，模型引入禁止返回（Inhibition of return，IOR）的神经机制来避免重复关注同一显著位置，使得关注焦点可以顺利从最显著转移到次显著位置。禁止返回机制从工程应用角度来讲是合理的，可以节省计算资源和时间；但是从心理学角度出发，禁止返回的神经机制持续时间不会很长，可能注意力在人脑的控制下会重新返回已经关注过的区域，这与任务的复杂程度、场景理解程度有关。以下为Itti模型对一张自然场景图像进行视觉注意的过程。

5、和空间频率范围模型做比较

得到对比的结果为：

结果表明：SM对噪声的鲁棒性较好，而SFC则较差。

6、总结

模型对噪声的鲁棒性很好，特别是如果噪声的特性（如颜色）不直接坏目标的主要特征的时候。该模型能复制人的处理大量弹出任务能力。当目标以它自己的独特方向，颜色，亮度或尺寸和大量的周围干扰物不同时，不管干扰物的数量如何，目标总是第一个被注意的。

优缺点：

①、本模型能以良好的性能处理复杂自然场景。验证了灵长类动物从早期视觉处理输入所得到的独特显著性图能引导BU的注意的观点。

②、这种方法能进行大规模并行实现，不仅是早期特征提取阶段的大量运算，而且对注意聚焦系统也可以。

③、只有物体特征在至少一个特征图中显性表示才能产生弹出效应，即快速检测独立于干扰物的数量。

④、如果不对预注意特征提取过程进行修改，此模型不能检测联合特征。尽管当目标以它自己的独特方向，颜色，亮度或尺寸和周围干扰物不同时，目标能被迅速检测到，它不能检测未实现的特征类型的目标显著性（如T型连接或线段终点，因为特定的神经元的存在还是有争议的）。

⑤、为了简单起见，也没有在特征图内实现任何循环机制，因此不能产生轮廓竞争和封闭现象，这些现象对某类人类弹出任务很重要。

⑥、模型没有包括大细胞运动通道，人类显著性中起了重要作用。

⑦、归一化处理提供了在任何情况下计算显著性的通用机制。它比以前提出的迭代方法更快更简单。

总之，论文提出了一个简单的显著性驱动的视觉注意焦点计算模型。其基于生物学发现而构建的结构能复制灵长类动物视觉系统的许多特性。该论文是图像显著性检测的基础，可以说是开山之作，对后续显著性论文的理解起到很大的作用。

以下提供一些本文参考的文件

1、复杂目标视觉注意模型研究

2、”A Model of Saliency-Based Visual Attention for Rapid Scene Analysis “PPT文档

图像显著性论文（二）—Saliency Detection: A Spectral Residual Approach

《Saliency Detection: A Spectral Residual Approach》是上交高材生侯晓迪在07年的CVPR上发表的一篇论文，这篇文章提出了一个图像视觉显著性的简单计算模型，这个模型和Irri提出的模型是两个截然不同的模型，Irri模型对于图像视觉显著性主要关注整幅图片突出的部分，通过各种特征的融合提取显著性图，而Hou的这个模型一上来关注的点就不在一张图片里突出的地方，而是背景，观察是否大部分图片的背景在某个空间上都满足什么变化，最后剔除背景，自然就只剩下图片突出的部分了，这篇文章之所以简单，是因为它只需要5个matlab公式就可以得到想要的结果，也没有很复杂的公式变换，都是图像处理基本的变换公式。既然这么有趣，那我们就一起来看一下吧，只需花一点点时间就可以知道它的原理，并且实现它，是不是感觉很神奇，学习起来都有动力了。

1、引言

一般的模型都是将显著性问题转化为目标特殊性质检测的问题，例如一些颜色特征、亮度特征、纹理特征等等，面对不可预测、无数的视觉模式类别，我们需要一个通用的显著性检测系统。如果要提出一个通用的显著性检测系统，那么根据以往的模型，就必须找到目标通用的特征，但是这基本上是不可能的事，每个目标都有自己与众不同的特性。既然这样，那么Hou就干脆把问题转化一下，目标通用特性提取不到，那就找一找背景的通用特性。这就是文章创新的地方，敢于跳出已有理论的框架，从另外一个角度考虑问题，往往会有预料之外的收获。

2、谱残差模型

Barlow提出的有效编码假说指出，感知系统的信息处理过程与外界信号的统计特性密切相关。初级感知系统的作用就是去除输入信号的统计冗余。也就是说，大脑之所以能够对外界环境自适应，是因为复杂的外界刺激存在冗余，而大脑的神经元能够有效地去除这些冗余，从而可以利用较少的资源尽可能有效地表达更多的信息。

从信息论的角度来看，有效编码假说将图像信息H(Image)分为两部分：

H(Image)=H(Innovation)+H(Prior Knowledge)

H(Innovation)表示突出的部分，H（Prior Knowledge）则表示冗余的信息。通过去除图像冗余信息，就可以获得图像与众不同的部分，即显著目标。

2.1 log频谱表示

自然图像的统计特性具有变换不变性：即将图像从原来的空间坐标变换到频率坐标系中，图像在空间中具有的统计特性在频域中仍然保留，这种不变性恰好保证了采用能量谱来刻画自然图像空间相关性的可靠性。

在自然图像的统计特性中尺度不变性是最经典也是研究最广泛的特性，这种特性也被称为1/f法则，即自然图像集合的平均傅里叶谱的幅值A(f)服从下式的分布。

图像显著性论文

下图反映了自然图像的log-log谱和log谱的区别。有图可见，log-log曲线近似为一条直线，而log曲线基本符合1/f法则。由于单幅图像具有尺度不变性以及log-log谱的数据分布不均衡（低频部分数据跨度大，高频部分数据汇集），所以本文采用log谱L(f)表示图像，L(f)=log(A(f))。（注：不知为什么要选用log或者log-log来表示图像，希望高手解答）。

图像显著性论文

2.2 从谱残差到显著图的获得

对于一个系统模型而言，考虑输入刺激信号的统计相似性可以极大地减少多余的视觉信息，这是因为相似性意味着冗余。不同的图像数据，其log谱却有着相似的分布趋势，而且曲线满足局部线性条件。因此，在不同的log谱中我们只需要关注其差异部分忽略相似部分。

给定一幅图像I(x)首先计算2维离散傅里叶变换，将其从空间域转到频域，对幅值取对数后得到log谱L(f)，由于log曲线满足局部线性条件，所以用局部平均滤波器h(f)对其进行平滑，获得平均频谱：

图像显著性论文

试验中，n取3，因此谱残差就是log谱和其进行均值滤波后的差，可按下面的式子计算：

R(f)=L(f)-V(f)

因此，总共需要的式子有：

图像显著性论文

先将图片进行傅里叶变换，计算振幅谱A(f)，计算相位谱P(f)（复数x+i*y的相位是arctan(y/x)），L(f)是log振幅谱，h是一个n*n均值滤波的卷积核，作者设n=3。R(f)就是Spectral Residual谱，再将R(f)+i*P(f)求出自然指数exp。注意：由欧拉公式可知，exp(r+i*Θ) = exp(r)*(cos(Θ) + i*sin(Θ)) = exp(r)*cos(Θ) + i*exp(r)*sin(Θ)，Θ是相位谱，然后对其傅里叶反变换，再进行一个高斯模糊滤波就得到了所谓的显著性区域。

图像显著性论文

3、实验对比和结果分析（该方法还没弄得特别明白，同样希望高手可以补充说明）

文章使用一种新的对比方法，计算击中率和误警率，公式如下所示：

图像显著性论文

其中Ok(x)表示第k个观察者标记的显著目标图，图中1代表目标物体,0代表背景,S(x)为计算出来的显著图，用击中率HR(hit rate)和误警率FAR(false alarm rate)来评价检测效果。

这种评价标准说明一个最优的显著性检测系统其HR值应该在没有被标注为显著目标的区域具有最小值,在被大多数人标为显著目标的区域具有最大值。通过比较可以得到以下结果。

图像显著性论文

由图可以看出本文方法在计算时间上比Itti方法更快，而且准确度也得到提升。

图像显著性论文

本文参考资料

1、Saliency Detection: A Spectral Residual Approach原文

2、基于谱残差和多分辨率分析的显著目标检测

3、一种简单的图像显著性计算模型

matlab和OpenCV代码在资料3中有贴出，这里就不再贴出。

图像显著性论文（三）—Frequency-tuned Salient Region Detection

国庆十一长假回来，是得收收心学习学习了，不过国庆也没去那里玩，因为这人实在是不敢恭维啊，连站的地方都没有了，中国这人口就是吓死人。最近有那么一点点时间，就赶紧把自己感兴趣的学一学，要不然过一阵子老板又给项目就没时间学了，那么就接着我们的图像显著性学习之旅吧！这一篇不想介绍得太详细了，因为这一篇说到的显著性计算实在是太简单了，两条公式就搞定了，但为什么引用率这么高呢，因为它把图像显著性提升到应用层面上来了，使人们更多的关注整个显著性区域而不是以前显著性论文所讲的，只有一些注视点。

1、其他显著性方法介绍

现在的显著性方法可以大致分为三类，分别是 biologically based, purely computational, or a combination，基于biologically的有Itti的 A model of saliency-based visual attention for rapid scene analysis也就是第一篇介绍的论文，基于purely computational的有X. Hou and L. Zhang 的Saliency detection: A spectral residual approach也即是第二篇介绍的论文，基于combination的有J. Harel, C. Koch, and P. Perona的Graph-based visualsaliency也即是biological和computational的结合。在频率域分别对5种显著性方法进行讨论，5种方法分别是IT,MZ,GB,SR,AC。由于这五种方法在尺度空间对图像频率都有一定的损失，所以最后产生的模糊的显著图，如下图所示。图像显著性论文

图像显著性论文

表2说明了每种方法最后产生的显著图的频率范围，图像大小，复杂度，从上图和表中可以看出IG方法即本文方法保存的图像信息比较全，并且输出的是全分辨率图像。

图像显著性论文

2、本文方法介绍

对于一个显著性区域而不是注视点，应该满足以下5点要求：

图像显著性论文

设Wlc为低频阈值，Whc为高频阈值，为了满足第一点，强调最大的显著性目标，所以Wlc必须非常小，这也满足第二点要求，强调整体显著性区域；为了很好的定义显著性目标的边界，所以需要保留高频部分，于是Whc需要高一点，满足第三个要求，但是又要忽略掉一些噪声，即第四个要求，所以也不能太高。从以上的分析可以得出，我们最后需要一个较宽的频率范围[Wlc，Whc]。

这里使用多个高斯差分的结合作为我们的带通滤波器。下图为高斯差分公式。

图像显著性论文

当我们设定两个高斯方差成一定比例时，如1:1.6，则高斯差分的联合可由下面公式给出

图像显著性论文

当我们取的比例为1.6时，则每做一次高斯差分，就是一个边缘检测器，那么将所有的高斯差分结合起来，就相当于把所有的边缘检测器从不同的尺度空间中结合起来，这也就说明了为什么显著区域会全部被覆盖而只是得到一些边缘或者点。(简单的说就是每做一次高斯差分就保留一定范围的频率，把所有的高斯差分结合起来就是把所有的频率搜集起来，就达到我们的要求了)，所以参数的选择很重要。文章中介绍确定σ1、σ2我们便可以得到一个频带，但是用一个具有实际带宽的频带去处理图像往往得不到我们想要的效果，这里，取σ1为无穷大，当σ1为无穷大时，对图像的滤波就是计算整幅图像的平均值，而σ2取一个小的高斯核，可以滤去一些噪声。最后得到方程为：

图像显著性论文