图像显著性论文
图像显著性论文(一)—A Model of saliency Based Visual Attention for Rapid Scene Analysis
这篇文章是图像显著性领域最具代表性的文章,是在1998年Itti等人提出来的,到目前为止引用的次数超过了5000,是多么可怕的数字,在它的基础上发展起来的有关图像显著性论文更是数不胜数,论文的提出主要是受到灵长类动物早期视觉系统的神经结构和行为所启发而产生了视觉注意系统。灵长类动物具有很强的实时处理复杂场景的能力,视觉信息进行深入的处理之前,对所收集到的感觉信息进行选择,这些选择可能减少场景理解的复杂性,这个选择过程在一个空间有限的视野区域即所谓的注意焦点(focus of attention, FOA)中完成的,它搜索场景的方式可以是快速、自下而上(bottom-up,BU)、显著驱动和任务独立的方式,也可以是慢速、自上而下(top-down,TD)、意志控制和任务相关的方式。注意模型包括“动态路由”模型,在此模型中,通过皮层视觉继承,从一个小的视野区域中得到的信息可以不断前行。通过皮层连接的动态修正或在TD和BU的控制下对活跃区建立特定的瞬时模式,来选择注意区域。
这篇文章所使用的模型建立在由Koch和Ullman所提出的生物模型和其他几个模型。它和所谓的特征整合模型相关,解释了人类视觉搜索策略。视觉输入首先被分为一系列特征地形图。然后在每个图中,不同的空间位置通过竞争获取显著性,只有从周围脱颖而出的位置才能保留。所有的特征图以纯粹的BU方式输入到高级的显著性图,它对整个视觉场景的局部醒目度进行地形编码。在灵长类动物中,人们相信这种图存在于后顶叶皮层(posterior parietal cortex)中,同时也存在于枕核丘脑(pulvinar nuclei ofthalamus)中。模型的显著性图被认为是产生注意转移的内部动力。因此这个模型表示了BU显著性可以引导注意转移,不需要TD。这个模型在可以进行并行处理,提高运算速度,而且可以根据特征的重要性,为特征加上权值,特征越重要,权值越大。(感觉是对文中的翻译,在网上也有PPT和论文介绍)
1、模型
上图为整个模型的结构图,首先输入一张彩色图片,采用高斯金字塔对该图片进行下采样,生成9张尺度图,其中尺度0表示该尺度图像与原图像的像素面积比例是1:1,尺度8表示该尺度图像与源图像面积为1:256。“Center-surround” difference operations,即*周边差操作,是根据人眼生理结构设计的。人眼感受野对于视觉信息输入中反差大的特征反应强烈,例如*亮周边暗的情况、*是绿色周边是红色的情况等,这都属于反差较大的视觉信息。在高斯金字塔中,尺度较大的图像细节信息较多,而尺度较小的图像由于高斯平滑和减抽样操作使得其更能反映出局部的图像背景信息,因而将尺度较大的图像和尺度较小的图像进行跨尺度减操作(across-scale),能得到局部中心和周边背景信息的反差信息。跨尺度减的具体算法如下:通过将代表周边背景信息的较小尺度的图像进行线性插值,使之与代表中心信息的较大尺度的图像具有相同大小,然后进行点对点的减操作,即*周边差操作,这样的跨尺度减操作使用符号Θ表示。对每个特征通道的高斯金字塔进行*周边差操作,依次检测图像中的特征不联系性,即中心和周边背景信息反差对比强烈的区域,很好地模仿了视网膜上探测突出目标的生理机制。在模型中,代表中心信息的图像尺度c取c∈{2,3,4},代表周边背景信息的图像尺度s取s=c+δ,其中δ∈{3,4},从而在每个特征通道里可以产生6个尺度对,即{2-5,2-6,3-6,3-7,4-7,4-8},在每个特征通道可以产生6张*周边差结果图,所以7个通道共有42张*周边差图,*周边差结果图在该模型中被称为特征图(Feature Map)。
2、早期视觉特征提取
①、亮度提取,用r,g,b分别表示图像红、绿、蓝三个通道的值,因此亮度I可以表示为I=(r+g+b)/3,由于输入图片是9个尺度的高斯金字塔图片,所以I也对于9个尺度高斯金子塔亮度图。
②、颜色提取,r,g,b通道采用I进行归一化以从亮度中解耦色调。产生了四个宽调谐(broadly-tuned)的颜色通道,从这些颜色通道中产生四个高斯金字塔R,G,B,Y。
R=r-(g+b)/2,G=g-(r+b)/2,B=b-(r+g)/2,Y=(r+g)/2-|r-g|/2-b,如果为负数则设为0。
③、方向特征,方向特征主要是使用Gabor滤波器对图像的亮度特征在0°,45°,90°,135°四个主要方向上进行滤波得到的。因此,Gabor滤波器可以很好地模拟人类视皮层简单细胞的信号处理特点,其结果直接体现了图像局部方向特征的信息。在Gabor滤波器某个方向的滤波结果中,给定区域的能量可以反映该区域灰度图在该方向的特征是否强烈,即反映了区域内的该方向的直线或者规则纹理的朝向特征是否明显。因此方向特征的提取可以直接使用几个方向的Gabor滤波器进行滤波获得。
BY(c,s)=|(B(c)-Y(c))Θ(Y(s)-B(s))|
第三组特征图集:采用方向Gabor金字塔得到局部方向信息,采用4角度和6尺度来表示角度和方向。最后得到方向特征图:O(c,s,θ)=|O(c,θ)ΘO(s,θ)|;
3、显著性图
4、关注焦点的定位与转移(这部分没仔细了解,只是引用了其他学者的论文,如果有更详细的解答,不妨大家一起分享)
5、和空间频率范围模型做比较
《Saliency Detection: A Spectral Residual Approach》是上交高材生侯晓迪在07年的CVPR上发表的一篇论文,这篇文章提出了一个图像视觉显著性的简单计算模型,这个模型和Irri提出的模型是两个截然不同的模型,Irri模型对于图像视觉显著性主要关注整幅图片突出的部分,通过各种特征的融合提取显著性图,而Hou的这个模型一上来关注的点就不在一张图片里突出的地方,而是背景,观察是否大部分图片的背景在某个空间上都满足什么变化,最后剔除背景,自然就只剩下图片突出的部分了,这篇文章之所以简单,是因为它只需要5个matlab公式就可以得到想要的结果,也没有很复杂的公式变换,都是图像处理基本的变换公式。既然这么有趣,那我们就一起来看一下吧,只需花一点点时间就可以知道它的原理,并且实现它,是不是感觉很神奇,学习起来都有动力了。
1、引言
一般的模型都是将显著性问题转化为目标特殊性质检测的问题,例如一些颜色特征、亮度特征、纹理特征等等,面对不可预测、无数的视觉模式类别,我们需要一个通用的显著性检测系统。如果要提出一个通用的显著性检测系统,那么根据以往的模型,就必须找到目标通用的特征,但是这基本上是不可能的事,每个目标都有自己与众不同的特性。既然这样,那么Hou就干脆把问题转化一下,目标通用特性提取不到,那就找一找背景的通用特性。这就是文章创新的地方,敢于跳出已有理论的框架,从另外一个角度考虑问题,往往会有预料之外的收获。
2、谱残差模型
Barlow提出的有效编码假说指出,感知系统的信息处理过程与外界信号的统计特性密切相关。初级感知系统的作用就是去除输入信号的统计冗余。也就是说,大脑之所以能够对外界环境自适应,是因为复杂的外界刺激存在冗余,而大脑的神经元能够有效地去除这些冗余,从而可以利用较少的资源尽可能有效地表达更多的信息。
从信息论的角度来看,有效编码假说将图像信息H(Image)分为两部分:
H(Image)=H(Innovation)+H(Prior Knowledge)
H(Innovation)表示突出的部分,H(Prior Knowledge)则表示冗余的信息。通过去除图像冗余信息,就可以获得图像与众不同的部分,即显著目标。
2.1 log频谱表示
自然图像的统计特性具有变换不变性:即将图像从原来的空间坐标变换到频率坐标系中,图像在空间中具有的统计特性在频域中仍然保留,这种不变性恰好保证了采用能量谱来刻画自然图像空间相关性的可靠性。
在自然图像的统计特性中尺度不变性是最经典也是研究最广泛的特性,这种特性也被称为1/f法则,即自然图像集合的平均傅里叶谱的幅值A(f)服从下式的分布。
下图反映了自然图像的log-log谱和log谱的区别。有图可见,log-log曲线近似为一条直线,而log曲线基本符合1/f法则。由于单幅图像具有尺度不变性以及log-log谱的数据分布不均衡(低频部分数据跨度大,高频部分数据汇集),所以本文采用log谱L(f)表示图像,L(f)=log(A(f))。(注:不知为什么要选用log或者log-log来表示图像,希望高手解答)。
2.2 从谱残差到显著图的获得
对于一个系统模型而言,考虑输入刺激信号的统计相似性可以极大地减少多余的视觉信息,这是因为相似性意味着冗余。不同的图像数据,其log谱却有着相似的分布趋势,而且曲线满足局部线性条件。因此,在不同的log谱中我们只需要关注其差异部分忽略相似部分。
给定一幅图像I(x)首先计算2维离散傅里叶变换,将其从空间域转到频域,对幅值取对数后得到log谱L(f),由于log曲线满足局部线性条件,所以用局部平均滤波器h(f)对其进行平滑,获得平均频谱:
试验中,n取3,因此谱残差就是log谱和其进行均值滤波后的差,可按下面的式子计算:
R(f)=L(f)-V(f)
因此,总共需要的式子有:
先将图片进行傅里叶变换,计算振幅谱A(f),计算相位谱P(f)(复数x+i*y的相位是arctan(y/x)),L(f)是log振幅谱,h是一个n*n均值滤波的卷积核,作者设n=3。R(f)就是Spectral Residual谱,再将R(f)+i*P(f)求出自然指数exp。注意:由欧拉公式可知,exp(r+i*Θ) = exp(r)*(cos(Θ) + i*sin(Θ)) = exp(r)*cos(Θ) + i*exp(r)*sin(Θ),Θ是相位谱,然后对其傅里叶反变换,再进行一个高斯模糊滤波就得到了所谓的显著性区域。
3、实验对比和结果分析(该方法还没弄得特别明白,同样希望高手可以补充说明)
文章使用一种新的对比方法,计算击中率和误警率,公式如下所示:
其中Ok(x)表示第k个观察者标记的显著目标图,图中1代表目标物体,0代表背景,S(x)为计算出来的显著图,用击中率HR(hit rate)和误警率FAR(false alarm rate)来评价检测效果。
这种评价标准说明一个最优的显著性检测系统其HR值应该在没有被标注为显著目标的区域具有最小值,在被大多数人标为显著目标的区域具有最大值。通过比较可以得到以下结果。
由图可以看出本文方法在计算时间上比Itti方法更快,而且准确度也得到提升。
本文参考资料
1、Saliency Detection: A Spectral Residual Approach原文
matlab和OpenCV代码在资料3中有贴出,这里就不再贴出。
国庆十一长假回来,是得收收心学习学习了,不过国庆也没去那里玩,因为这人实在是不敢恭维啊,连站的地方都没有了,中国这人口就是吓死人。最近有那么一点点时间,就赶紧把自己感兴趣的学一学,要不然过一阵子老板又给项目就没时间学了,那么就接着我们的图像显著性学习之旅吧!这一篇不想介绍得太详细了,因为这一篇说到的显著性计算实在是太简单了,两条公式就搞定了,但为什么引用率这么高呢,因为它把图像显著性提升到应用层面上来了,使人们更多的关注整个显著性区域而不是以前显著性论文所讲的,只有一些注视点。
1、其他显著性方法介绍
现在的显著性方法可以大致分为三类,分别是 biologically based, purely computational, or a combination,基于biologically的有Itti的 A model of saliency-based visual attention for rapid scene analysis也就是第一篇介绍的论文,基于purely computational的有X. Hou and L. Zhang 的Saliency detection: A spectral residual approach也即是第二篇介绍的论文,基于combination的有J. Harel, C. Koch, and P. Perona的Graph-based visualsaliency也即是biological和computational的结合。在频率域分别对5种显著性方法进行讨论,5种方法分别是IT,MZ,GB,SR,AC。由于这五种方法在尺度空间对图像频率都有一定的损失,所以最后产生的模糊的显著图,如下图所示。
表2说明了每种方法最后产生的显著图的频率范围,图像大小,复杂度,从上图和表中可以看出IG方法即本文方法保存的图像信息比较全,并且输出的是全分辨率图像。
2、本文方法介绍
对于一个显著性区域而不是注视点,应该满足以下5点要求:
设Wlc为低频阈值,Whc为高频阈值,为了满足第一点,强调最大的显著性目标,所以Wlc必须非常小,这也满足第二点要求,强调整体显著性区域;为了很好的定义显著性目标的边界,所以需要保留高频部分,于是Whc需要高一点,满足第三个要求,但是又要忽略掉一些噪声,即第四个要求,所以也不能太高。从以上的分析可以得出,我们最后需要一个较宽的频率范围[Wlc,Whc]。
这里使用多个高斯差分的结合作为我们的带通滤波器。下图为高斯差分公式。
当我们设定两个高斯方差成一定比例时,如1:1.6,则高斯差分的联合可由下面公式给出
当我们取的比例为1.6时,则每做一次高斯差分,就是一个边缘检测器,那么将所有的高斯差分结合起来,就相当于把所有的边缘检测器从不同的尺度空间中结合起来,这也就说明了为什么显著区域会全部被覆盖而只是得到一些边缘或者点。(简单的说就是每做一次高斯差分就保留一定范围的频率,把所有的高斯差分结合起来就是把所有的频率搜集起来,就达到我们的要求了),所以参数的选择很重要。文章中介绍确定σ1、σ2我们便可以得到一个频带,但是用一个具有实际带宽的频带去处理图像往往得不到我们想要的效果,这里,取σ1为无穷大,当σ1为无穷大时,对图像的滤波就是计算整幅图像的平均值,而σ2取一个小的高斯核,可以滤去一些噪声。最后得到方程为:
先对图像进行高斯滤波,得到滤波后的图像,取其像素点的Lab值Iwhc(x,y),然后计算图像在LAB空间的均值Iμ,最后求欧氏距离,得到显著图。工作流程如下:
3、图像分割
以上就是图像显著图提取的介绍,非常简单,但是优点还是很明显的,特别是作者把它应用在图像分割上,效果很好。
本次分割主要有两个内容:①使用meanshift对图像进行分割;②介绍一种依赖于显著性图的自适应分割方法
分割步骤:
1、用meanshift方法将原图片分割成K大块;
2、计算每一块对应的显著图的平均值Sk;
3、计算整幅显著图的平均值Sμ;
4、计算自适应阈值Ta=2*Sμ;
5、当Sk>Ta时,则认为该区域为显著性图,保留;
工作过程为:
本文参考资料
1、Frequency-tuned Salient Region Detection原文
2、http://ivrgwww.epfl.ch/supplementary_material/RK_CVPR09/(本方法主页和图片、代码下载)
3、四种简单的图像显著性区域特征提取方法-----> AC/HC/LC/FT
4、PPT介绍
自己实现了一下,将代码改为OpenCV代码,运行环境是vs2010+OpenCV2.4.8,运行结果如下,未加图像分割代码。