Wang-2017-立体缩略图生成

1.介绍
2.相关工作
3.提出的方法

3.1立体显著性检测

3.1.1 基于视差和边缘的显著性
3.1.2 基于立体感知的显著性偏置（Saliency Bias）
3.1.3 在立体图像对中的显著性优化

3.2 立体缩略图生成

3.2.1 内容保持缩略图裁剪（CPC）
3.2.2 物体感知缩略图裁剪

4.实验结果

4.1立体显著性结果
4.2立体缩略图生成结果
4.3 运行时间分析
4.4 讨论和局限性

1.介绍

2.相关工作

3.提出的方法

3.1立体显著性检测

论文阅读笔记--Stereoscopic Thumbnail Creation via Efficient Stereo Saliency Detection-2017

3.1.1 基于视差和边缘的显著性

边缘组成了一种重要的显著性刺激。
论文阅读笔记--Stereoscopic Thumbnail Creation via Efficient Stereo Saliency Detection-2017

作者观察到，视差的边缘可以揭示闭塞边界的位置，这个位置通常也是对应着物体的物理边界。
论文阅读笔记--Stereoscopic Thumbnail Creation via Efficient Stereo Saliency Detection-2017
边缘和视差边界提供了补充信息。

边缘精确地勾勒出对象轮廓。但是，它们通常过于密集，并且出现在对象内部。相反，由于视差估计中的误差，视差边界通常不覆盖整个对象边界，而是相对稀疏并且能够忽略不必要的细节。

这些观察促使我们将这两种线索整合在一起进行立体显著性检测。

视差图 $D$ , $\bigtriangledown D$ 是视差图的梯度图， $\Phi(\cdot)$ 是膨胀操作， $E_k$ 是边缘概率图。因此边缘概率图和视差图相结合成视差-边缘图（disparity-edge map):
$\hat E_k = \Phi(E_k\cdot(\lambda+\Phi(\bigtriangledown D)))...........................(1)$

接着作者对视差-边缘图 $\hat E_k$ 进行梯度流（gradient flow）操作, 以此来识别立体图像中视觉上重要的区域。

梯度流从图像的四个边中的一个开始，到另一侧结束，如图2e中所示,
论文阅读笔记--Stereoscopic Thumbnail Creation via Efficient Stereo Saliency Detection-2017
一个大小为 $m\times n$ 的图像的从左边边缘到右边边缘的梯度流 $F^l$ 定义为：
$\begin{matrix} F^l = \{(i,j)\}_{j=1}^n, & 1\leq i\leq m & (2) \end{matrix}$
一个从左到右的梯度流 $F^l$ 遍历某一行的所有像素。同理，一个从右到左的梯度流 $F^r$ , 一个从上到下的梯度流 $F^t$ 和一个从底到顶的梯度流 $F^d$ 定义如下：
$\begin{matrix} F^r = \{(i,n-j+1)\}_{j=1}^n, & 1\leq i\leq m & \\ & & \\ F^t = \{(i,j)\}_{i=1}^m, & 1\leq j\leq n & (3)\\ & & \\ F^d = \{(m-i+1,j)\}_{i=1}^m, & 1\leq j\leq n & \end{matrix}$
在 $x=(x,y)$ 处的梯度流的大小是由视差-边缘值 $\hat E_k(x)$ 和前 $t$ 个梯度流中最小值的总和计算的。拿梯度流 $F^l$ 作为例子，在视差-边缘图 $\hat E_k$ 中， $x$ 处的 $F^l$ 大小记为 $V_k(x)$ , 它递归地定义为：
$\begin{matrix} V_k^l(x) = & \hat E_k(x)+min(V_k^l((x-t,y-1)), ......, & (4) \\ & & \\ & V_k^l((x,y-1)),......,Vk^l((x+t,y-1))). \end{matrix}$
其中 $t$ 通常设置为2。可以观察到，当梯度流F遍历视差边缘图时，流的值增大。关于梯度流更多信息可以看文章[42].

[42] W. Wang, J. Shen, and L. Shao, “Consistent video saliency using local gradient flow optimization and global refinement,” IEEE Trans. Image Process., vol. 24, no. 11, pp. 4185–4196, Nov. 2015.

通过梯度流的计算，我们估计了一个图像 $I_k$ 在像素 $x$ 处的初始的显著性值 $A_k(x)$ ：
$A_k(x) = min(V_k^l(x),V_k^r(x),V_k^t(x),V_k^d(x))........................(5)$
论文阅读笔记--Stereoscopic Thumbnail Creation via Efficient Stereo Saliency Detection-2017

3.1.2 基于立体感知的显著性偏置（Saliency Bias）

根据立体知觉，一个物体在舒适区，即靠近屏幕的三维区域，更容易被人类接受。小视差的物体位于舒适区。具有负视差的图像内容显示在屏幕前面；反之，具有正视差的内容显示在屏幕后面。从屏幕上弹出的物体比其他物体更重要。

在上述讨论的启发下，我们设计了一种立体视觉的显著性偏差，它增强了舒适区附近或屏幕前任何内容的显著性，同时抑制了其他区域的显著性。这种显著性偏差用二维高斯分布 $G(x,y|\mu_z,\mu_y,\sigma_x,\sigma_y)$ 表示。高斯分布 $G(x,y)$ 的中心 $(\mu_x,\mu_y)$ 计算如下：
$(\mu_x,\mu_y) = \frac{1}{\sum_x\theta(x)\cdot \vartheta (x)}\sum_x\theta(x)\cdot \vartheta(x)\cdot x,................(6)$
其中函数 $\theta(x), \vartheta(x)$ 定义为：
$\theta(x)=\left\{\begin{matrix} 1 & if & D(x)<0.2\cdot max(D); & \\ & & & \\ 0 & otherwise & & (7)\\ \end{matrix}\right.$
$\vartheta(x)=\left\{\begin{matrix} 1 & if & A_k(x)>mean(A_k); & \\ & & & \\ 0 & otherwise & & (7)\\ \end{matrix}\right.$
高斯分布 $G(x,y)$ 的中心 $(\mu_x,\mu_y)$ 计算为一些像素的几何质心，这些像素具有比较小的正视差值或者是具有显著性值大于平均水平的负视差值。

水平方差 $\sigma_x$ 和垂直方差 $\sigma_y$ 计算为：
$\sigma_x = \frac{\alpha}{\sum_x\theta(x)\cdot \vartheta(x)}\big( \sum_x \theta(x)\cdot \vartheta(x)\cdot (x-\mu_x)^2 \big)^{1/2},.........................$

$\sigma_y = \frac{\alpha}{\sum_x\theta(x)\cdot \vartheta(x)}\big( \sum_x \theta(x)\cdot \vartheta(x)\cdot (y-\mu_y)^2 \big)^{1/2},....................(8)$
为了相对保守的估计，其中参数 $\alpha$ 被设置为2。

为了整合这个显著性偏置 $G(x,y)$ ,我们调整了我们的立体显著性结果：
$\hat A_k = A_k\cdot G........................(9)$
并且这个显著性图被归一化到[0,1]之间。这种立体视觉感知的显著性偏差和精确的显著性结果分别显示在图3c和3d中。
论文阅读笔记--Stereoscopic Thumbnail Creation via Efficient Stereo Saliency Detection-2017

3.1.3 在立体图像对中的显著性优化

立体图像对的两个视图的显著性检测结果应该是一致的。这两种观点中的显著区域和非显著区域应该是相似的。

然而，前几节的结果并不完全符合立体显著性检测的这一基本要求。

图4示出了该问题的示例。
论文阅读笔记--Stereoscopic Thumbnail Creation via Efficient Stereo Saliency Detection-2017
图4c中的显著性结果 $\{\hat A_L,\hat A_R\}$ 不是很一致，因为在图4b中它们俩的视差-边缘图就有一些不同。

由于这个问题，作者提出了一种优化方法，生成两张准确且一致的立体显著性图 $\{S_L,S_R\}$ ，分别对应两张输入立体图像 $\{I_L,I_R\}$ . 这个优化方法首先生成显著性估计结果 $\{\hat A_L,\hat A_R\}$ , 然后给予那些与非显著性区域相距较远的区域更大的显著性值。

为了计算效率，我们首先通过SLIC算法将任一立体图片 $I_k$ 抽象为一组几乎规则的超像素 $R_k = \{r_k^1,r_k^2,...\}$ 。

对超像素 $r_k^i$ 的显著性估计记为 $\hat A_k(r_k^i)$ , 并且被计算为这个超像素中所有像素的平均显著性估计，如图3d所示。
论文阅读笔记--Stereoscopic Thumbnail Creation via Efficient Stereo Saliency Detection-2017
为了在立体对上获得一致的显著性映射，我们同时考虑了立体图像 $\{I_L,I_R\}$ , 构造了一个加权图 $G = \{ \nu ,\varepsilon \}$

在这个图中， $\nu=R_L\cup R_R$ 是一个点的集合，对应两张立体图像中所有的超像素。而 $\varepsilon$ 是一个无方向边的集合。其中有两种边：

图像内边缘连接同一图像中空间上相邻的超像素，
图像间边缘连接来自不同视图的超级像素。

如果在同一立体图像中相邻的两个超像素在空间上是连通的。当两个来自不同视角的超像素的中心距小于两个空间相邻超像素中心之间的平均距离时，它们通过图像间的边缘连接起来。

从边的定义可以看出，构造的图 $G$ 是稀疏连通的。也就是说，关系矩阵 $W$ 的大多数元素都是零。

在这次工作中，两个节点之间的边缘权重 $w_{pq}$ 定义为：
$w_{pq} = \sum_fd_f(r^p,r^q),...............................(10)$
其中， $f= \{color,disparity\}$ , $d_f(\cdot)$ 表示两个超像素之间的特征距离。

任意两个超像素之间的测地距离 $d_{geo}(r^i,r^j)$ 定义为图G中沿着两个超像素之间的最短路径的边缘权重的总和：
$d_{geo}(r^i,r^j) = min_{C_{r^i,r^j}}\sum_{p,q}w_{pq},........p,q\in C_{r^i,r^j}$
其中， $C_{r^i,r^j}$ 代表着连接两个节点 $r^i,r^j$ 的一条路径。

超像素 $r^i$ 的显著性 $(S_k(r_k^i))$ 计算为与背景区域 $B$ 的最短测地距离：
$S(r^i) = {min}_{r_B\in B} d_{geo}(r^i,r_B),...................................(12)$
其中， $B=\{r_k^i|\hat A_k(r_k^i)<mean(\hat A_k)\}$ , 表示具有小显著性值的超像素为当作背景的一部分。这一定义背后的合理性是当一个超像素与背景区域存在一条短路径时，这个超像素应该被赋予一个低显著性值。

这种方法的一个好处是同质对象内的区域具有相似的显著性值，因为它们通常共享到背景区域的相似最短路径。

由于我们的图非常稀疏，所有超像素对之间的最短路径都是使用Johnson算法[44]有效计算的，在我们的实验中，对于通常包含500个超像素的图形，该算法只需不到0.1秒。

通过（12），我们得到了两个一致且精确的立体显著图 $\{S_L,S_R\}$ ,它们都被归一化到[0,1]之间。

图4证明了通过考虑两个立体图之间的联系效果有所提升。
论文阅读笔记--Stereoscopic Thumbnail Creation via Efficient Stereo Saliency Detection-2017

3.2 立体缩略图生成

对于我们的缩略图生成系统的后半部分，我们在第3.1节中的立体显著性算法的指导下执行缩略图裁剪。缩略图裁剪是指自动裁剪输入图像的重要部分的任务：保留视觉上重要的部分，而不包含没有信息的部分。

随着立体图像采集与显示设备的日益普及，如何有效地呈现和浏览立体图像数据集正引起研究者的广泛关注。

在浏览立体图像的时候，小缩略图为用户提供了一个基本的功能，可以直观地快速浏览图像数据集，例如个人相册。在这种情况下，用户只需要图像中最重要的部分，而不是接收所有内容。

根据不同的应用，我们提出了两种立体照片裁剪方法：

第一种是内容保持裁剪，称为CPC用于调整立体图像，使其能够在不同的设备上正确显示。此应用旨在在给定任意纵横比的情况下尽可能地保留立体图像内容。
第二种方法是对象感知裁剪，称为OAC，它产生的缩略图比输入的立体图像小得多。生成的缩略图通常具有比原始图像小得多的比例/大小，纵横比是自动确定的。

OAC用于立体图像浏览，通过缩略图显示最重要的内容。对于CPC和OAC来说，保持差距不变是一个基本原则。

3.2.1 内容保持缩略图裁剪（CPC）

我们提出了CPC来自动拟合具有任意纵横比的立体图像。CPC的基本理念是在缩略图中尽可能多地包含内容，通过保持视差不变来保持原有的立体性。

假设指定的立体显示设备的长宽比是 $\tau$ . 我们首先针对每一个输入立体图像对 $\{I_L,I_R\}$ 生成一个窗口对 $w = \{W_L,W_R\}$ .

不失一般性地，使窗口的尺寸为 $m\times n'$ , 其中 $n'<n$ ,且 $\frac{m}{n'}=\tau$ .

我们用同步的步骤将窗口对在立体图像对中滑动，找到最合适的窗口位置作为输出缩略图。

由于窗口的纵横比为 $\tau$ ,生成的缩略图适合于目标立体显示。【长宽比满足后可以进行同等长宽比地缩放】

在立体对内同时滑动窗口可以保证原始的立体特性。

我们考虑 $W$ 为所有在滑动过程的可靠的窗口的集合，然后寻找 $w^*\in W$ 在所有可靠的窗口中最好地保持显著性区域地窗口:
$w^* = argmax_{w^i}(S^{CPC}(W_L^i)+S^{CPC}(W_R^i)).......(13)$
其中 $w^i = \{W_L^i,W_R^i\}, S^{CPC}(W_k^i)$ 为窗口 $W_k^i$ 的CPC显著性分数：
$S^{CPC}(W_k^i) = \sum_{x\in W_k^i}S_k(x).........(14)$
论文阅读笔记--Stereoscopic Thumbnail Creation via Efficient Stereo Saliency Detection-2017

3.2.2 物体感知缩略图裁剪

这里介绍的技术可以自动识别立体对中最重要的区域，并生成比原始输入小得多的缩略图，同时保留原始立体特性。

CPC和OAC之间最主要的不同是，CPC试图在给定的任意长宽比的情况下，保存尽可能多的内容；而OAC旨在自动生成一个小但是重要的输入立体图像的一部分。

前者可用于调整立体图像以适应具有不同纵横比的显示器。后者能够传送关于图像构图的基本信息，以便用户可以获得原始图像的粗略印象。

我们首先计算一个表示突出物体位置的矩形区域 $Z$ 。这个区域的中心 $(o_x,o_y)$ 计算为经过显著性加权的立体图像对 $\{I_L,I_R\}$ 中所有像素位置的中心：

也就是说，作者把前面计算得到的显著性图作为一种权重的用途
$(o_x,o_y) = \frac{1}{\sum_k\sum_x exp(S_k(x))}\sum_k\sum_x exp(S_k(x))\cdot x,.........(15)$
其中我们使用指数函数来强调显著像素的影响。

这个矩形领域的宽和长分别被计算为立体图像对 $\{I_L,I_R\}$ 中的所有像素位置与其中心 $(o_x,o_y)$ 之间的平均水平距离和垂直距离的两倍：
$width_Z = \frac{2}{\sum_k\sum_xexp(S_k(x))}(\sum_k\sum_xexp(S_k(x))\cdot |x-o_x|),$
$height_Z = \frac{2}{\sum_k\sum_xexp(S_k(x))}(\sum_k\sum_xexp(S_k(x))\cdot |y-o_y|),$
$...................................................(16)$
其中，显著性依旧作为一种权重。这个矩形区域粗略估计了立体对中重要内容的位置和形状。此外，该区域还提供了裁剪窗口的搜索域，从而有效地减少了计算负担。

我们在矩形区域Z生成许多大小不同的窗口作为缩略图候选，这些窗口以不同的比例采样。

然后我们选择最合适的窗口，使内容保存与窗口大小保持最佳平衡。

这些候选窗口的宽度和高度分别设置为 $(k\cdot width_Z,k\cdot height_Z)$ , 其中 $k = \{0.5,0.6,0.7,0.8,0.9,1\}$

在这里，由于计算成本高，我们没有考虑所有可能的窗口大小。在搜索区域Z内，我们同时在立体图像对内滑动一对窗口，直到所有可能的位置都已经遍历了。

我们用 $W$ 表示所有可靠窗口的集合，找到 $w^*\in W$ 满足:
$w^* = argmax_{w^i} (S^{OAC}(W_L^i)+S^{OAC}(W_R^i)),............(17)$
其中， $S^{OAC}(W_k^i)$ 是窗口 $W_k^i$ 的OAC显著性分数：
$S^{OAC}(W_k^i) = \frac{1}{|W_k^i|^\delta}\sum_{x\in W_k^i}S_k(x)..........(18)$
其中 $|W_k^i|$ 是窗口 $W_k^i$ 的尺寸（以像素为单位）， $\delta$ 是一个窗口大小的软偏差。
当 $\delta=0$ 时，最大的窗口会被选择，因为它达到了最大的显著性分数。
当 $\delta=1$ 时，OAC窗口通常会从那些具有高显著性分数的最小窗口中选择。

这种软偏差可以根据实际需要选择；较小的 $\delta$ 值有利于较大的缩略图，而较大的 $\delta$ 值则倾向于较小的缩略图。在我们的实验中，我们设置 $\delta=0.3$ 。我们的OAC算法的过程如图6所示。
论文阅读笔记--Stereoscopic Thumbnail Creation via Efficient Stereo Saliency Detection-2017

4.实验结果

4.1立体显著性结果

（先空着）。。。。。。

4.2立体缩略图生成结果