论文阅读笔记--Stereoscopic Thumbnail Creation via Efficient Stereo Saliency Detection-2017

1.介绍

2.相关工作

3.提出的方法

3.1立体显著性检测

论文阅读笔记--Stereoscopic Thumbnail Creation via Efficient Stereo Saliency Detection-2017

3.1.1 基于视差和边缘的显著性

边缘组成了一种重要的显著性刺激。
论文阅读笔记--Stereoscopic Thumbnail Creation via Efficient Stereo Saliency Detection-2017

作者观察到,视差的边缘可以揭示闭塞边界的位置,这个位置通常也是对应着物体的物理边界。
论文阅读笔记--Stereoscopic Thumbnail Creation via Efficient Stereo Saliency Detection-2017
边缘和视差边界提供了补充信息。

边缘精确地勾勒出对象轮廓。但是,它们通常过于密集,并且出现在对象内部。相反,由于视差估计中的误差,视差边界通常不覆盖整个对象边界,而是相对稀疏并且能够忽略不必要的细节。

这些观察促使我们将这两种线索整合在一起进行立体显著性检测。

视差图 DD, D\bigtriangledown D是视差图的梯度图, Φ()\Phi(\cdot) 是膨胀操作, EkE_k 是边缘概率图。 因此边缘概率图和视差图相结合成视差-边缘图(disparity-edge map):
E^k=Φ(Ek(λ+Φ(D)))...........................(1)\hat E_k = \Phi(E_k\cdot(\lambda+\Phi(\bigtriangledown D)))...........................(1)

接着作者对视差-边缘图 E^k\hat E_k 进行梯度流(gradient flow)操作, 以此来识别立体图像中视觉上重要的区域。

梯度流从图像的四个边中的一个开始,到另一侧结束,如图2e中所示,
论文阅读笔记--Stereoscopic Thumbnail Creation via Efficient Stereo Saliency Detection-2017
一个大小为 m×nm\times n 的图像的从左边边缘到右边边缘的梯度流 FlF^l 定义为:
Fl={(i,j)}j=1n,1im(2)\begin{matrix} F^l = \{(i,j)\}_{j=1}^n, & 1\leq i\leq m & (2) \end{matrix}
一个 从左到右的梯度流 FlF^l 遍历某一行的所有像素。同理,一个从右到左的梯度流 FrF^r, 一个从上到下的梯度流 FtF^t 和一个从底到顶的梯度流 FdF^d 定义如下:
Fr={(i,nj+1)}j=1n,1imFt={(i,j)}i=1m,1jn(3)Fd={(mi+1,j)}i=1m,1jn\begin{matrix} F^r = \{(i,n-j+1)\}_{j=1}^n, & 1\leq i\leq m & \\ & & \\ F^t = \{(i,j)\}_{i=1}^m, & 1\leq j\leq n & (3)\\ & & \\ F^d = \{(m-i+1,j)\}_{i=1}^m, & 1\leq j\leq n & \end{matrix}
x=(x,y)x=(x,y) 处的梯度流的大小是由视差-边缘值 E^k(x)\hat E_k(x)和前 tt 个梯度流中最小值的总和计算的。拿梯度流 FlF^l作为例子, 在视差-边缘图 E^k\hat E_k中,xx处的 FlF^l 大小记为 Vk(x)V_k(x) , 它递归地定义为:
Vkl(x)=E^k(x)+min(Vkl((xt,y1)),......,(4)Vkl((x,y1)),......,Vkl((x+t,y1))).\begin{matrix} V_k^l(x) = & \hat E_k(x)+min(V_k^l((x-t,y-1)), ......, & (4) \\ & & \\ & V_k^l((x,y-1)),......,Vk^l((x+t,y-1))). \end{matrix}
其中 tt 通常设置为2。可以观察到,当梯度流F遍历视差边缘图时,流的值增大。关于梯度流更多信息可以看文章[42].

[42] W. Wang, J. Shen, and L. Shao, “Consistent video saliency using local gradient flow optimization and global refinement,” IEEE Trans. Image Process., vol. 24, no. 11, pp. 4185–4196, Nov. 2015.

通过梯度流的计算,我们估计了一个图像 IkI_k 在像素 xx 处的初始的显著性值 Ak(x)A_k(x)
Ak(x)=min(Vkl(x),Vkr(x),Vkt(x),Vkd(x))........................(5)A_k(x) = min(V_k^l(x),V_k^r(x),V_k^t(x),V_k^d(x))........................(5)
论文阅读笔记--Stereoscopic Thumbnail Creation via Efficient Stereo Saliency Detection-2017

3.1.2 基于立体感知的显著性偏置(Saliency Bias)

根据立体知觉,一个物体在舒适区,即靠近屏幕的三维区域,更容易被人类接受。小视差的物体位于舒适区。具有负视差的图像内容显示在屏幕前面;反之,具有正视差的内容显示在屏幕后面。从屏幕上弹出的物体比其他物体更重要。

在上述讨论的启发下,我们设计了一种立体视觉的显著性偏差,它增强了舒适区附近或屏幕前任何内容的显著性,同时抑制了其他区域的显著性。这种显著性偏差用二维高斯分布G(x,yμz,μy,σx,σy)G(x,y|\mu_z,\mu_y,\sigma_x,\sigma_y) 表示。高斯分布 G(x,y)G(x,y) 的中心 (μx,μy)(\mu_x,\mu_y)计算如下:
(μx,μy)=1xθ(x)ϑ(x)xθ(x)ϑ(x)x,................(6)(\mu_x,\mu_y) = \frac{1}{\sum_x\theta(x)\cdot \vartheta (x)}\sum_x\theta(x)\cdot \vartheta(x)\cdot x,................(6)
其中函数 θ(x),ϑ(x)\theta(x), \vartheta(x)定义为:
θ(x)={1ifD(x)<0.2max(D);0otherwise(7)\theta(x)=\left\{\begin{matrix} 1 & if & D(x)<0.2\cdot max(D); & \\ & & & \\ 0 & otherwise & & (7)\\ \end{matrix}\right.
ϑ(x)={1ifAk(x)>mean(Ak);0otherwise(7)\vartheta(x)=\left\{\begin{matrix} 1 & if & A_k(x)>mean(A_k); & \\ & & & \\ 0 & otherwise & & (7)\\ \end{matrix}\right.
高斯分布 G(x,y)G(x,y) 的中心 (μx,μy)(\mu_x,\mu_y)计算为一些像素的几何质心,这些像素具有比较小的正视差值或者是具有显著性值大于平均水平的负视差值。

水平方差 σx\sigma_x 和垂直方差 σy\sigma_y计算为:
σx=αxθ(x)ϑ(x)(xθ(x)ϑ(x)(xμx)2)1/2,.........................\sigma_x = \frac{\alpha}{\sum_x\theta(x)\cdot \vartheta(x)}\big( \sum_x \theta(x)\cdot \vartheta(x)\cdot (x-\mu_x)^2 \big)^{1/2},.........................

σy=αxθ(x)ϑ(x)(xθ(x)ϑ(x)(yμy)2)1/2,....................(8)\sigma_y = \frac{\alpha}{\sum_x\theta(x)\cdot \vartheta(x)}\big( \sum_x \theta(x)\cdot \vartheta(x)\cdot (y-\mu_y)^2 \big)^{1/2},....................(8)
为了相对保守的估计,其中参数 α\alpha 被设置为2。

为了整合这个显著性偏置 G(x,y)G(x,y) ,我们调整了我们的立体显著性结果:
A^k=AkG........................(9)\hat A_k = A_k\cdot G........................(9)
并且这个显著性图被归一化到[0,1]之间。这种立体视觉感知的显著性偏差和精确的显著性结果分别显示在图3c和3d中。
论文阅读笔记--Stereoscopic Thumbnail Creation via Efficient Stereo Saliency Detection-2017

3.1.3 在立体图像对中的显著性优化

立体图像对的两个视图的显著性检测结果应该是一致的。这两种观点中的显著区域和非显著区域应该是相似的。

然而,前几节的结果并不完全符合立体显著性检测的这一基本要求。

图4示出了该问题的示例。
论文阅读笔记--Stereoscopic Thumbnail Creation via Efficient Stereo Saliency Detection-2017
图4c中的显著性结果 {A^L,A^R}\{\hat A_L,\hat A_R\} 不是很一致,因为在图4b中它们俩的视差-边缘图就有一些不同。

由于这个问题,作者提出了一种优化方法,生成两张准确且一致的立体显著性图 {SL,SR}\{S_L,S_R\},分别对应两张输入立体图像 {IL,IR}\{I_L,I_R\}. 这个优化方法首先生成显著性估计结果 {A^L,A^R}\{\hat A_L,\hat A_R\}, 然后给予那些与非显著性区域相距较远的区域更大的显著性值

为了计算效率,我们首先通过SLIC算法将任一立体图片 IkI_k抽象为一组几乎规则的超像素 Rk={rk1,rk2,...}R_k = \{r_k^1,r_k^2,...\}

对超像素 rkir_k^i 的显著性估计记为 A^k(rki)\hat A_k(r_k^i), 并且被计算为这个超像素中所有像素的平均显著性估计, 如图3d所示。
论文阅读笔记--Stereoscopic Thumbnail Creation via Efficient Stereo Saliency Detection-2017
为了在立体对上获得一致的显著性映射,我们同时考虑了立体图像 {IL,IR}\{I_L,I_R\}, 构造了一个加权图 G={ν,ε}G = \{ \nu ,\varepsilon \}

在这个图中, ν=RLRR\nu=R_L\cup R_R是一个点的集合,对应两张立体图像中所有的超像素。而 ε\varepsilon 是一个无方向边的集合。其中有两种边:

  • 图像内边缘连接同一图像中空间上相邻的超像素,
  • 图像间边缘连接来自不同视图的超级像素。

如果在同一立体图像中相邻的两个超像素在空间上是连通的。当两个来自不同视角的超像素的中心距小于两个空间相邻超像素中心之间的平均距离时,它们通过图像间的边缘连接起来。

从边的定义可以看出,构造的图 GG 是稀疏连通的。也就是说,关系矩阵 WW 的大多数元素都是零。

在这次工作中,两个节点之间的边缘权重 wpqw_{pq} 定义为:
wpq=fdf(rp,rq),...............................(10)w_{pq} = \sum_fd_f(r^p,r^q),...............................(10)
其中,f={color,disparity}f= \{color,disparity\}, df()d_f(\cdot)表示两个超像素之间的特征距离。

任意两个超像素之间的测地距离 dgeo(ri,rj)d_{geo}(r^i,r^j)定义为图G中沿着两个超像素之间的最短路径的边缘权重的总和:
dgeo(ri,rj)=minCri,rjp,qwpq,........p,qCri,rjd_{geo}(r^i,r^j) = min_{C_{r^i,r^j}}\sum_{p,q}w_{pq},........p,q\in C_{r^i,r^j}
其中, Cri,rjC_{r^i,r^j}代表着连接两个节点 ri,rjr^i,r^j的一条路径。

超像素 rir^i 的显著性 (Sk(rki))(S_k(r_k^i))计算为与背景区域 BB的最短测地距离:
S(ri)=minrBBdgeo(ri,rB),...................................(12)S(r^i) = {min}_{r_B\in B} d_{geo}(r^i,r_B),...................................(12)
其中, B={rkiA^k(rki)<mean(A^k)}B=\{r_k^i|\hat A_k(r_k^i)<mean(\hat A_k)\}, 表示具有小显著性值的超像素为当作背景的一部分。这一定义背后的合理性是当一个超像素与背景区域存在一条短路径时,这个超像素应该被赋予一个低显著性值。

这种方法的一个好处是同质对象内的区域具有相似的显著性值,因为它们通常共享到背景区域的相似最短路径。

由于我们的图非常稀疏,所有超像素对之间的最短路径都是使用Johnson算法[44]有效计算的,在我们的实验中,对于通常包含500个超像素的图形,该算法只需不到0.1秒。

通过(12),我们得到了两个一致且精确的立体显著图 {SL,SR}\{S_L,S_R\} ,它们都被归一化到[0,1]之间。

图4证明了通过考虑两个立体图之间的联系效果有所提升。
论文阅读笔记--Stereoscopic Thumbnail Creation via Efficient Stereo Saliency Detection-2017

3.2 立体缩略图生成

对于我们的缩略图生成系统的后半部分,我们在第3.1节中的立体显著性算法的指导下执行缩略图裁剪。缩略图裁剪是指自动裁剪输入图像的重要部分的任务:保留视觉上重要的部分,而不包含没有信息的部分。

随着立体图像采集与显示设备的日益普及,如何有效地呈现和浏览立体图像数据集正引起研究者的广泛关注。

在浏览立体图像的时候,小缩略图为用户提供了一个基本的功能,可以直观地快速浏览图像数据集,例如个人相册。在这种情况下,用户只需要图像中最重要的部分,而不是接收所有内容。

根据不同的应用,我们提出了两种立体照片裁剪方法:

  • 第一种是内容保持裁剪,称为CPC用于调整立体图像,使其能够在不同的设备上正确显示。此应用旨在在给定任意纵横比的情况下尽可能地保留立体图像内容。
  • 第二种方法是对象感知裁剪,称为OAC,它产生的缩略图比输入的立体图像小得多。生成的缩略图通常具有比原始图像小得多的比例/大小,纵横比是自动确定的。

OAC用于立体图像浏览,通过缩略图显示最重要的内容。对于CPC和OAC来说,保持差距不变是一个基本原则。

3.2.1 内容保持缩略图裁剪(CPC)

我们提出了CPC来自动拟合具有任意纵横比的立体图像。CPC的基本理念是在缩略图中尽可能多地包含内容,通过保持视差不变来保持原有的立体性。

假设指定的立体显示设备的长宽比是 τ\tau. 我们首先针对每一个输入立体图像对 {IL,IR}\{I_L,I_R\}生成一个窗口对 w={WL,WR}w = \{W_L,W_R\}.

不失一般性地,使窗口的尺寸为 m×nm\times n', 其中 n<nn'<n,且 mn=τ\frac{m}{n'}=\tau.

我们用同步的步骤将窗口对在立体图像对中滑动,找到最合适的窗口位置作为输出缩略图。

由于窗口的纵横比为 τ\tau ,生成的缩略图适合于目标立体显示。【长宽比满足后可以进行同等长宽比地缩放】

在立体对内同时滑动窗口可以保证原始的立体特性。

我们考虑 WW 为所有在滑动过程的可靠的窗口的集合, 然后寻找 wWw^*\in W 在所有可靠的窗口中最好地保持显著性区域地窗口:
w=argmaxwi(SCPC(WLi)+SCPC(WRi)).......(13)w^* = argmax_{w^i}(S^{CPC}(W_L^i)+S^{CPC}(W_R^i)).......(13)
其中 wi={WLi,WRi},SCPC(Wki)w^i = \{W_L^i,W_R^i\}, S^{CPC}(W_k^i)为窗口 WkiW_k^iCPC显著性分数
SCPC(Wki)=xWkiSk(x).........(14)S^{CPC}(W_k^i) = \sum_{x\in W_k^i}S_k(x).........(14)
论文阅读笔记--Stereoscopic Thumbnail Creation via Efficient Stereo Saliency Detection-2017

3.2.2 物体感知缩略图裁剪

这里介绍的技术可以自动识别立体对中最重要的区域,并生成比原始输入小得多的缩略图,同时保留原始立体特性。

CPC和OAC之间最主要的不同是,CPC试图在给定的任意长宽比的情况下,保存尽可能多的内容;而OAC旨在自动生成一个小但是重要的输入立体图像的一部分。

前者可用于调整立体图像以适应具有不同纵横比的显示器。后者能够传送关于图像构图的基本信息,以便用户可以获得原始图像的粗略印象。

我们首先计算一个表示突出物体位置的矩形区域 ZZ。这个区域的中心 (ox,oy)(o_x,o_y) 计算为经过显著性加权的立体图像对 {IL,IR}\{I_L,I_R\}中所有像素位置的中心:

也就是说,作者把前面计算得到的显著性图作为一种权重的用途
(ox,oy)=1kxexp(Sk(x))kxexp(Sk(x))x,.........(15)(o_x,o_y) = \frac{1}{\sum_k\sum_x exp(S_k(x))}\sum_k\sum_x exp(S_k(x))\cdot x,.........(15)
其中我们使用指数函数来强调显著像素的影响。

这个矩形领域的宽和长分别被计算为立体图像对 {IL,IR}\{I_L,I_R\}中的所有像素位置与其中心 (ox,oy)(o_x,o_y)之间的平均水平距离和垂直距离的两倍:
widthZ=2kxexp(Sk(x))(kxexp(Sk(x))xox),width_Z = \frac{2}{\sum_k\sum_xexp(S_k(x))}(\sum_k\sum_xexp(S_k(x))\cdot |x-o_x|),
heightZ=2kxexp(Sk(x))(kxexp(Sk(x))yoy),height_Z = \frac{2}{\sum_k\sum_xexp(S_k(x))}(\sum_k\sum_xexp(S_k(x))\cdot |y-o_y|),
...................................................(16)...................................................(16)
其中,显著性依旧作为一种权重。这个矩形区域粗略估计了立体对中重要内容的位置和形状。此外,该区域还提供了裁剪窗口的搜索域,从而有效地减少了计算负担。

我们在矩形区域Z生成许多大小不同的窗口作为缩略图候选,这些窗口以不同的比例采样。

然后我们选择最合适的窗口,使内容保存与窗口大小保持最佳平衡。

这些候选窗口的宽度和高度分别设置为 (kwidthZ,kheightZ)(k\cdot width_Z,k\cdot height_Z), 其中 k={0.5,0.6,0.7,0.8,0.9,1}k = \{0.5,0.6,0.7,0.8,0.9,1\}

在这里,由于计算成本高,我们没有考虑所有可能的窗口大小。在搜索区域Z内,我们同时在立体图像对内滑动一对窗口,直到所有可能的位置都已经遍历了。

我们用 WW表示所有可靠窗口的集合, 找到 wWw^*\in W满足:
w=argmaxwi(SOAC(WLi)+SOAC(WRi)),............(17)w^* = argmax_{w^i} (S^{OAC}(W_L^i)+S^{OAC}(W_R^i)),............(17)
其中,SOAC(Wki)S^{OAC}(W_k^i)是窗口 WkiW_k^iOAC显著性分数
SOAC(Wki)=1WkiδxWkiSk(x)..........(18)S^{OAC}(W_k^i) = \frac{1}{|W_k^i|^\delta}\sum_{x\in W_k^i}S_k(x)..........(18)
其中 Wki|W_k^i| 是窗口 WkiW_k^i 的尺寸(以像素为单位),δ\delta 是一个窗口大小的软偏差。
δ=0\delta=0时,最大的窗口会被选择,因为它达到了最大的显著性分数。
δ=1\delta=1时,OAC窗口通常会从那些具有高显著性分数的最小窗口中选择。

这种软偏差可以根据实际需要选择;较小的 δ\delta 值有利于较大的缩略图,而较大的 δ\delta 值则倾向于较小的缩略图。在我们的实验中,我们设置 δ=0.3\delta=0.3 。我们的OAC算法的过程如图6所示。
论文阅读笔记--Stereoscopic Thumbnail Creation via Efficient Stereo Saliency Detection-2017

4.实验结果

4.1立体显著性结果

(先空着)。。。。。。

4.2立体缩略图生成结果

(先空着)。。。。。。

4.3 运行时间分析

我们在一台装有intel core 2 DuoE8400 3-GHZ CPU和4 GB RAM的个人计算机上测量了该方法的运行时间。该方法的计算量由两部分组成。第一部分计算立体显著图,包括超像素分割[43]、视差公式[40]、边缘检测[41]和重要性分析。第二部分实际上创建了立体缩略图。图2中的立体图像的分辨率是930X820在我们的CPC算法中,裁剪步骤需要0.2s,在OAC算法中,由于搜索范围较大,完成裁剪过程需要较长的时间(1.1s)。在我们当前的实现中,我们没有将基于搜索的裁剪过程并行化,而我们认为这两种方法是互不相同的。

4.4 讨论和局限性

该算法有一些局限性。

  • 利用立体深度的一个潜在的缺点是,不准确的视差结果可能会对裁剪结果产生负面影响。因此,我们将获得的视差图作为粗略估计。我们将立体视觉知识感知的显著性偏差描述为高斯分布,而不是直接将视差为负的区域作为显著区域。此外,视差估计技术随着时间的推移将缓解这一问题。
  • 算法的性能受到立体显著性估计精度的限制。显著性估计是我们确定要保存什么内容的方法的基石。如果重要性分析具有误导性,就很难正确保存重要内容。例如,我们的立体显著性方法可能不太适合具有散布在图像上的多个显著对象或占据图像大部分的单个显著对象的场景。在这些场景中,我们的方法可能会忽略一些显著的区域。