Advertisement

[CVPR2020论文(目标跟踪方向)]D3S——A Discriminative Single Shot Segmentation Tracker

阅读量:

大家好,今天分享一篇cvpr2020的目标跟踪论文。

作者主要有两大贡献:

第一阶段中开发了一种基于单次采样的判别分割跟踪系统,在该系统中将目标特征通过两个不同的模型进行编码;其中该模型(即GIM)在面对不同形态的目标时表现出良好的鲁棒性;另一个模块(命名为GEM)则具备强大的区分能力;其主要负责预测目标的位置信息,并从多个候选区域中筛选出最优的目标区域

第二个主要贡献是开发出一种高效的技术方案来实现segmentation mask生成旋转矩形框。

Figure2是D3S网络的结构图。

  • Geometrically invariant model(GIM模型)

GIM模型由两种深度特征向量组成,分别与目标和背景相关,即

X_{GIM} =eft  X{F},X{B} ight

由于预训练的主干特征对于准确的分割是欠优的,因此将主干特征输入

1imes 1

卷积层,将维度降低为64,然后输入

3 imes 3

卷积模块(均在每组卷积模块之后紧跟ReLU激活函数)。通过优化参数设置,在训练阶段这些卷递进式地进行调整以获得最佳特征。

在第一帧中,通过提取与目标

X^{F}

对应的像素位置的分割特征向量和邻域中与背景

X^{B}

相对应的分割特征向量来构建目标/背景模型。

在跟踪的过程中,将从搜索区域提取的像素级特征与

GIMeft

进行比较,来计算前景和背景相似度通道

F

B

(参考VideoMatch 这篇论文的做法)。对于

F

通道的计算,利用像素

i

处提取的特征

y_{i}

x_{j}^{F}n X^{F}

做归一化点积(余弦距离公式)。

s_{ij}^{F}eft =eft angle {ilde y_{{i}},ilde x{j}^{F}} ight angle=rac{​{ilde y_{i} dot ilde x_{j}^{F}}}{eft ilde y_{i} eft  ight  ilde x_{j}^{F}ight }

其中,

ilde{eft }

表示

L_{2}

归一化。最终,像素

i

处的前景相似度

F_{i}

可以通过该处最高的

K

个相似度取平均来获得,即

F_{i}=TOPeft

该通道B的计算方式与其一致,并即通过与背景模型特征向量进行相似度计算

x_{j}^{B}n X^{B}

最后利用softmax层计算出target posterior通道

P

  • Geometrically constrained model(GEM模型)

GIM能够鉴别出目标与背景区的差异然而却无法有效地区分出目标与相似物体之间的细微差别。研究者在GEM模型架构中巧妙地采用了ATOM模块中的深度DCF组件来实现这一关键功能。该研究团队首先采用了该模块的深度DCF组件进行处理以确保后续计算的有效性

1imes 1

卷积操作通过减少主干特征维度至64来实现降维效果。降维后的特征与64通道的DCF模块(之后连接PeLU激活函数)经过相关滤波计算得到响应图。其中响应图的最大值位置被认定为目标物体的最可能位置。

因为D3S生成的目标分割结果具有明确性特征,在实际应用中需确认目标对象是否存在于每一像素位置上。该通道通过计算响应图中的最大值位置与搜索区域内剩余像素位置间的欧几里得距离变换来实现定位。

  • Refinement

该模块能够融合来自多个信息渠道的数据,并输出高分辨率的segmentation map

模块输入:
(1) GEM的目标定位通道L;
(2) GIM的前景相似度与后方区域通道F和P.

将所有通道concatenate在一起,输入

3imes 3

经过ReLU激活后的卷积操作会生成一个具有64个通道的张量。通过三阶段地提升分辨率(upscaling)作用于各主要特征层,并整合优化后的主干特征图谱以改善图像细节质量。

Upscaling首先将输入通道的分辨率加倍,输入两个

3imes 3

此卷积层(后接ReLU)处理后的输出特征图与其调整后的主干特征图进行求和运算。在此过程中,我们采用了一种自适应权重分配策略。

3imes 3

卷积层(后接ReLU)用于调整主干特征。该 upscale 操作仅包含分辨率翻倍及一个

3imes 3

卷积层)后接softmax,从而产生最终的segmentation probability map。

  • Bounding box fitting

在本研究中, 作者所提出的网络结构能够生成segmentation mask, 然而, 在许多common benchmarks中, 需要的结果通常是bounding boxes. 具体而言, 在大多数common benchmarks中, bounding boxes对应于segmentation mask的axis-aligned manner. 为了提高效率和准确性, 作者提出了一种简单的方法来计算这些rotated boxes作为对应的 bounding boxes.

基于阈值0.5生成binary segmentation mask,并仅保留mask中的最大连通区域;通过椭圆拟合其轮廓,并利用最小二乘法进行优化;确定椭圆中心、长半轴与短半轴的位置参数;这种方法能够有效保留区域内的大部分目标像素;然而,在区域内存在背景干扰时仍会带来一定误差;为此,我们采用coordinate descent算法优化估计出的segmentation mask与拟合出的矩形框之间的匹配度

IoU^{MOD}

,从而减小长轴上的矩形边。

IoU{MOD}=\frac{N_{IN}{+}}{lpha N_{IN}{-}+N_{IN}{+}+N_{OUT}^{+}}

其中,

N_{IN}^{+}

N_{OUT}^{+}

分别表示前景像素在矩形内和外的数量,

N_{IN}^{-}

表示背景像素在矩形内的数量。

lpha

控制

N_{IN}^{-}

bounding box fitting算法非常快,平均花费2ms。

  • Tracking with D3S

(1)初始化

假设首帧ground truth包含bounding box,则GEM将按照ATOM框架执行初始化步骤,并将区域设定为目标尺寸的四倍,在此过程中利用反向传播技术逐步优化网络参数以降低计算复杂度;若首帧ground truth带有segmentation mask,则基于分割后的轴对齐边界框来推导bounding box的位置与尺寸

当存在segmentation mask时

(2)跟踪

每当捕捉到新的帧画面时,在前一画面中的目标位置上截取目标区域的四倍尺寸。将其输入到判别分割网络中去运行后端模块,并生成对应的segmentation mask图以供后续分析使用。如果有必要对边界框进行调整,则执行相应的调整以完成拟合过程

全部评论 (0)

还没有任何评论哟~