Advertisement

论文阅读笔记--Stereoscopic Thumbnail Creation via Efficient Stereo Saliency Detection-2017

阅读量:

Wang-2017-立体缩略图生成

    1. Introduction
    1. Related Work
    1. Proposed Method
      • 3.1 Stereo Significance Detection
      • 3.1.1 Stereo-aided Edge-based Significance Analysis
      • 3.1.2 Saliency Bias in Stereoscopic Perception (Saliency Bias)
      • 3.1.3 Enhanced Stereo Pair-wise Significance Optimization
    • 3.2 立体缩略图生成

      • 3.2.1 内容保持缩略图裁剪(CPC)
      • 3.2.2 物体感知缩略图裁剪

讨论与局限性

实验结果

1.介绍

2.相关工作

3.提出的方法

3.1立体显著性检测

在这里插入图片描述

3.1.1 基于视差和边缘的显著性

边缘组成了一种重要的显著性刺激。

在这里插入图片描述

作者注意到,在视差的边缘区域中能够识别闭塞边界的位置这一位置往往也与物体的物理边界相对应。

在这里插入图片描述

边缘和视差边界提供了补充信息。

边缘细致地标绘出物体的轮廓。然而,在大多数情况下这些区域较为密集并且位于物体内部。与此相反在视差估计中存在误差的情况下视差边界往往未能覆盖整个物体的边界区域而产生的是较为稀疏并且能够有效地忽略那些无关紧要细节的空间布局

这些观察促使我们将这两种线索整合在一起进行立体显著性检测。

The disparity gradient, denoted as D, along with its magnitude \bigtriangledown D, represents the gradient map of the disparity. The operator \Phi(\cdot) stands for an expansion operation, while E_k denotes an edge probability map. Therefore, by combining the edge probability map and the disparity gradient into a disparity-edge map (disparity-edge map):

\hat E_k = \Phi(E_k\cdot(\lambda+\Phi(\bigtriangledown D))). \tag{1}

执行梯度下降流程用于视差-边缘图 \hat E_k ,旨在识别立体图像中的关键区域。

梯度流从图像的四个边中的一个开始,到另一侧结束,如图2e中所示,

在这里插入图片描述

一个大小为 m\times n 的图像在其左边至右边边缘上的梯度流 F^l 被定义为:
\begin{matrix} F^l = \{(i,j)\}_{j=1}^n, & 1\leq i\leq m & (2) \end{matrix}
该图像中某一行所有像素所经历的一个从左至右的梯度流动 F^l 以及类似地可定义从右到左、上到下和底到顶四种方向上的梯度流 F^r, F^t, 和 F^d 分别如下:
\begin{matrix} F^r = \{(i,n-j+1)\}_{j=1}^n, & 1\leq i\leq m & \\ & & \\ F^t = \{(i,j)\}_{i=1}^m, & 1\leq j\leq n & (3)\\ & & \\ F^d = \{(m-i+1,j)\}_{i=1}^m, & 1\leq j\leq n & \end{matrix}
在点 (x,y) 处的梯度流大小通过视差-边缘值 \hat E_k(x) 和其前 t 个最小值之和来计算。以从左到右的梯度流动为例,在视差-边缘图 \hat E_k(x) 中点 (x,y) 处对应的流动强度记作 V_k(x) ,其递归定义如下:
V_k^{l}(x) = \hat E_k(x) + min(V_k^{l}(x-t,y-1), ..., V_k^{l}(x,y-1), ..., V_k^{l}(x+t,y-1)).
其中通常将步长参数设置为2。值得注意的是,在梯度流动遍历整个视差-边缘图的过程中其强度会逐渐增强这一现象可以被观察到[42]。

[42] W. Wang, J. Shen, and L. Shao, “Consistent video saliency using local gradient flow optimization and global refinement,” IEEE Trans. Image Process., vol. 24, no. 11, pp. 4185–4196, Nov. 2015.

基于梯度流的方法,在像素位置x处进行计算后得到图像I_{k}在其像素x处对应的初始显著性值为A_{k}(x)

A_{k}(x)=\min\left\{V^{l}_{k}(x), V^{r}_{k}(x), V^{t}_{k}(x), V^{d}_{k}(x)\right\}\cdots\cdots (5)

在这里插入图片描述

3.1.2 基于立体感知的显著性偏置(Saliency Bias)

基于立体知觉,在视野焦点这一相对接近屏幕的空间区域内更容易被感知。具有低视差的物体位于视野焦点内。负视差图像呈现于屏幕前方;相比之下, 正视差内容则位于后方。从视野中突兀出现的对象往往更具视觉吸引力。

在上述讨论的启发下,我们设计了一种立体视觉的显著性偏差,它增强了舒适区附近或屏幕前任何内容的显著性,同时抑制了其他区域的显著性。这种显著性偏差用二维高斯分布G(x,y|\mu_z,\mu_y,\sigma_x,\sigma_y) 表示。高斯分布 G(x,y) 的中心 (\mu_x,\mu_y)计算如下:
(\mu_x,\mu_y) = \frac{1}{\sum_x\theta(x)\cdot \vartheta (x)}\sum_x\theta(x)\cdot \vartheta(x)\cdot x,................(6)
其中函数 \theta(x), \vartheta(x)定义为:
\theta(x)=\left\{\begin{matrix} 1 & if & D(x)\right.
\vartheta(x)=\left\{\begin{matrix} 1 & if & A_k(x)>mean(A_k); & \\ & & & \\ 0 & otherwise & & (7)\\ \end{matrix}\right.
高斯分布 G(x,y) 的中心 (\mu_x,\mu_y)计算为一些像素的几何质心,这些像素具有比较小的正视差值或者是具有显著性值大于平均水平的负视差值。

水平方差 \sigma_x 和垂直方差 \sigma_y 由以下公式计算:
水平方向方差 \sigma_x = \frac{\alpha}{\sum_x\theta(x)\cdot \vartheta(x)}\cdot \sqrt{ \sum_x \theta(x)\cdot \vartheta(x)\cdot (x-\mu_x)^2 }

该公式用于相对保守地估算\sigma_y值:\sigma_y = \frac{\alpha}{\sum_x\theta(x)\cdot \vartheta(x)}\left( \sum_x \theta(x)\cdot \vartheta(x)\cdot (y-\mu_y)^2 \right)^{1/2}(8)。
其中参数\alpha取值为2。

为了整合这一显著性偏置 G(x,y) ,我们需要优化现有的立体显著性结果:

\hat{A}_k = A_k \cdot G \quad \cdots (9)

此外,在这一过程中会进行标准化处理以将该显着性的值限制在 [0, 1] 区间内。通过这种方式实现显着性的统一表示,并将其结果显示于图 3c 和 3d 中。

在这里插入图片描述

3.1.3 在立体图像对中的显著性优化

立体图像对中两个视图之间的显著性检测结果应当是具有一致性的;这两种观点中的显着区域与非显着区域应呈现相似特征

然而,前几节的结果并不完全符合立体显著性检测的这一基本要求。

图4示出了该问题的示例。

在这里插入图片描述

图4c中的一致性检验结果 \{\hat A_L,\hat A_R\} 并不完全一致,在图4b中这两个指标的视差-边缘图显示出一定的差异。

针对此问题而言,在研究过程中我们构建了一个新的优化框架。该框架能够生成精确且具有一致性的立体显着性图\{S_L,S_R\},这些显着性图分别与输入的两个立体图像\{I_L,I_R\}相关联.在这一过程中,我们首先生出了各区域的显着性估计值\{\hat A_L,\hat A_R\},随后为那些与非显着性区域距离较远的位置赋予了更高的显着性权重

随后,在实现高效计算目标的过程中

将该超像素 r_k^i 的显著性估计标记为 \hat A_k(r_k^i), 它等于该区域中每个像素的显著性估计的平均值(如图3d所示)。

在这里插入图片描述

旨在通过多视图数据实现一致显著性映射的结果。并在此基础上构建了一个加权图模型,并在此基础上构建了一个加权图模型其中权重参数由参数集合 \{\nu, \varepsilon\} 定义。

在这个图中,在数学上定义为\nu=R_L\cup R_R的一个点集合,在计算机视觉领域通常表示图中所有可能存在的区域信息。此外,在这一构造中存在两类基本元素:一类是水平边缘(horizontal edges),另一类是垂直边缘(vertical edges)。

  • 图像内部的边缘对应同一图像中空间相邻的超像素,
    • 图像之间的边缘建立了来自不同视图超级像素的关系。

当同一立体图像中的相邻两超像素处于不同视角位置时,在其间距低于这两个空间相邻超像素中心间距平均值的情况下,则这两者将被通过边缘相连

从边的定义可以看出,在构造图中 G 是稀疏且连通的。
这表明在构建过程中 G 被设计为稀疏而连通。
因此,在关系矩阵 W 中几乎所有的位置都是零值。
这一结果意味着 W 的大部分元素都是零。

在此项目中,在研究图结构时

任意两个超像素之间的测地距离d_{geo}(r^{i}, r^{j})被定义为图G中连接这两个超像素之间最短路径上的边权重之和:
d_{geo}(r^{i}, r^{j}) = \min\limits_{P \in C(r^{i}, r^{j})} \sum\limits_{(p,q) \in P} w(pq),
其中p, q属于C(r^{i}, r^{j})
其中,C(r^{i}, r^{j})表示介于这两个节点r^{i}, r^{j}之间的一条路径。

超像素 r^i 的显著度 (S_k(r_k^i)) 由与背景部分 B 之间的最短测地距离决定:
其中,在集合 B=\{r_k^i|\hat A_k(r_k^i) 中定义了所有具有较小显著度值的超像素作为背景的一部分。其合理性依据在于当一个超像素与其所在的背景区域之间存在一条简短路径时,则该区域应被赋予较低的显著度值。

该方法的一个优点是其在同质对象内部所形成的区域具有相近的显著性值这一特征源于它们趋向于趋向于共享相同的最短路径。

基于我们所研究的图的高度稀疏特性,在分析每一对超像素之间的最短路径时

基于方程(12)的结果显示,我们成功获取了两个一致可靠且细节丰富的立体显著图 \{S_L,S_R\} ,这些图像经过归一化处理后落入区间[0,1]内。

图4证明了通过考虑两个立体图之间的联系效果有所提升。

在这里插入图片描述

3.2 立体缩略图生成

对于我们的缩略图生成系统的后半段,在第3.1节中的立体显著性算法的指导下通过缩略图裁剪进行处理。缩览图裁剪是自动提取输入图像的关键元素的任务:旨在保留视觉上重要的关键元素而不包含未被包含的信息。

由于立体图像采集与显示设备的发展越来越迅速,如何有效呈现和浏览立体图像数据集引起了学术界的浓厚兴趣

当用户在查看立体图像时(...),微缩图向其提供了核心功能——即快速浏览图像数据集的能力(如个人相册)。这种情况下(...),用户仅需图像中最重要的部分(...),而非接收全部信息。

根据不同的应用,我们提出了两种立体照片裁剪方法:

  • 第一种是基于内容保留进行的裁剪方式, 被称为CPC技术, 其主要作用是实现立体图像在不同设备上的正确显示. 该应用旨在最大化地保持立体图像内容, 在任意给定的比例下正确显示.
  • 第二种方法是基于对象感知的裁剪技术(OAC), 其生成的缩略图通常显著小于原始输入的立体图像尺寸. 生成的缩略图通常具有与原始图像相比明显减小的比例和尺寸, 并且其纵横比由系统自动计算得出.

OAC被广泛应用于立体图像浏览功能中,在此过程中系统会以缩略图的形式突出显示关键信息以供快速浏览。就其应用范围而言,在CPC与OAC之间维持恒定的差异水平被视为一种核心原则。

3.2.1 内容保持缩略图裁剪(CPC)

该系统开发出一种名为CPC的新算法用于自动拟合支持任意视角比例的立体图像。该算法的核心思想是,在缩略图中尽量多地容纳关键信息,并确保不同视角之间的深度信息得以保留。

给定立体显示设备的长宽比为 \tau ,我们首先针对每一个输入的立体图像对 {I_L, I_R} 生成相应的窗口对 w = {W_L, W_R}。

不失一般性地,使窗口的尺寸为 m\times n', 其中 n',且 \frac{m}{n'}=\tau.

我们通过同步的方式对匹配窗口在立体图像中滑动,并确定最佳匹配位置以生成对应的缩略图。

长宽比满足后可以进行同等长宽比地缩放

当长宽比满足时,能够实现同比例缩放

当长宽比满足时,能够实现同比例缩放

在立体对内同时滑动窗口可以保证原始的立体特性。

我们定义 W 为空间滑动过程中所有可靠窗口组成的集合。随后确定最优窗口 \hat{w} 是在所有可靠窗口中综合平衡显著性区域表现最佳的那个。\hat{w} = \argmax_{\hat{w}_i} (S^{CPC}(\hat{W}_L_i) + S^{CPC}(\hat{W}_R_i)) \quad (13)其中 \hat{w}_i = {\hat{W}_L_i, \hat{W}_R_i} 表示第i个候选窗口由左、右两部分组成,并称为该候选 window 的 CPC 显著性分数。\quad S^{CPC}(\hat{W}_k) = \sum_{x\in \hat{W}_k} S_k(x) \quad (14)

在这里插入图片描述

3.2.2 物体感知缩略图裁剪

这里的技术能够主动识别出立体对中最重要的部分,并制作出比输入文件更小的图像,并且保持原有的形状特征

CPC与OAC之间的主要区别在于:针对任意指定的比例,CPC致力于尽可能多地保留图像信息;相比之下,OAC的目标是自动生成一个较小但具有重要性的三维图像片段。

它能够通过调节立体图像使其适应配备有不同纵横比显示器的需求。它传递了有关图像构图的关键信息,从而使用户能够大致了解原始图像。

为了定位并突出显示物体的位置,在本研究中我们首先确定了一个矩形区域 Z。其中该区域中心点坐标 (o_x, o_y) 通过基于显著性的加权方法从立体图像对 \{I_L, I_R\}的所有像素位置中求取其几何平均

具体而言,作者将前面计算得到的显著性图用作权重作用于。其中我们采用指数函数以突出显著像素的影响。

该矩形区域的宽度和高度分别基于立体图像对 \{I_L,I_R\}中的所有像素位置与其中心 (o_x,o_y)之间的平均水平距离和垂直距离的两倍进行计算:
width_Z = \frac{2}{\sum_k\sum_xexp(S_k(x))}(\sum_k\sum_xexp(S_k(x))\cdot |x-o_x|),
height_Z = \frac{2}{\sum_k\sum_xexp(S_k(x))}(\sum_k\sum_xexp(S_k(x))\cdot |y-o_y|),
……(16)

我们通过在矩形区域Z上创建多个不同尺寸的窗口来生成缩略图候选,并按照不同比例进行采样。

然后我们选择最合适的窗口,使内容保存与窗口大小保持最佳平衡。

这些候选窗口各自设定其宽度和高度分别为 (k⋅width_Z,k⋅height_Z) ,其中 k = \{0.5,\ 1\}

在这里, 因为计算成本较高, 我们未考虑到所有可能的窗口大小. 在搜索区域Z中, 在立体图像对内部移动了一对窗口直至遍历了所有可能的位置.

我们定义W为所有可靠窗口的集合。对于任意的w \in W,我们有:

w^* = \argmax_{w} [S^{OAC}(W_L) + S^{OAC}(W_R)]

其中,定义任意窗口k_i \in K的OAC显著性得分为:

S^{OAC}(k_i) = \frac{1}{|k_i|^\delta} \sum_{x \in k_i} S_k(x)

这里,

  • |k_i|表示窗口k_i的空间尺寸(单位为像素)
  • \delta>0
    \delta=0时, 选择具有最大尺寸的最大窗口; 当\delta=1时, 选择具有最高显著性得分的小尺寸窗口。

这种软偏差可以选择基于实际需求;当δ较小时能生成较大尺寸的缩略图,在其他情况下则会生成较小尺寸的缩略图。在我们的实验中设置δ=0.3的情况,请看图表6中的过程

在这里插入图片描述

4.实验结果

4.1立体显著性结果

(先空着)。。。。。。

4.2立体缩略图生成结果

(先空着)。。。。。。

4.3 运行时间分析

在一台配备Intel Core 2 Duo E8400 3 GHz处理器和4 GB内存的台式电脑上,我们对所述方法的运行时间进行了评估。计算量分为两个主要部分:第一部分负责生成立体显著图这一关键环节;第二个阶段生成立体缩略图图像。具体而言,在第一阶段中涉及超像素分割、视差计算公式以及重要性分析等技术环节;而在第二阶段则完成了立体图像的缩略处理工作。值得注意的是,在当前实现中,并未采用并行处理策略来优化裁剪过程;相反地,在OAC算法中由于搜索范围较大导致了较长的操作时间(1.1秒)。

4.4 讨论和局限性

该算法有一些局限性。

利用立体深度的一个潜在缺点是不准确的视差可能会对裁剪产生负面影响。因此我们将获得的视差图用作粗略估计将立体视觉知识感知中的显著偏差描述为高斯分布而非直接将视差为负的区域视为显著区域此外随着时间推移视差估计技术会缓解这一问题。
算法性能受限于立体显著性估计精度这一基础方法是确定保留哪些内容的关键所在如果重要性分析存在误导就很难正确保留重要内容例如我们的立体显著性方法可能不适合图像中分散分布的多个显著对象或占据图像大部分面积的单一对象在这些情况下我们的方法可能遗漏一些显著区域。

全部评论 (0)

还没有任何评论哟~