Advertisement

SAT:State-Aware Tracker for Real-Time Video Object Segmentation 阅读

阅读量:

State-Aware Tracker for Real-Time Video Object Segmentation

该跟踪器旨在针对视频物体分割(VOS)任务进行求取

简图示意:

在这里插入图片描述

该网络输出目标mask,并通过蓝色的状态评估器基于分割结果计算出相应的状态得分值;随后生成两个反馈:一个是策略切换模块的激活信号与另一个是动态更新全局特征的操作指令。

在这里插入图片描述

SAT体系包含三个主要模块:分割网络组件、状态评估系统以及反馈机制。分割网络组件由显著性编码模块(橙色)、相似性编码模块(黄色)以及全局特征提取模块(绿色)协同工作完成图像分割任务;经由这些子模块集成在一起后进行特征解码处理,并最终生成对应的掩膜信号以指导后续分割操作。

这部分是通过孪生的互相关网络生成目标的位置响应,并基于此进行编解码操作从而获得目标对应的掩膜;然后将这些位置响应映射至追踪图像中进行进一步处理。I认为,在互相关运算后所获得的是相似度响应图,在这种情况下...

状态评估器基于预测结果计算出的状态分数来反映当前状态。根据状态估计的结果生成反馈信息,在其中一项措施上调整剪切策略,在另一项措施上构建全局特征表示以增强特征表现能力。

Segmentation

基于AlexNet架构构建了相似度编码模块,并借鉴了SiamFC++的设计理念;显着性编码器则采用了改良版ResNet-50架构来完成其功能。显着性编码器通过融合编码特征、相似度响应及全局特征信息,并经过元素级加法操作后进行解码。这一设计可能旨在增强模型对噪声或异常数据的鲁棒性。在特征融合之后,通过双线性上采样技术对高层特征进行放大处理,并将其与显著性编码器对应的低层特征连接起来以补充图像的空间信息(FPN)。

Estimation

作者在此处阐述了状态评估的重要性及其分类标准。具体而言,在目标检测任务中将目标的状态划分为正常与异常两种情况:当目标出现截断时(即mask预测结果为真),其会表现出较高的聚合程度;反之,则会因为遮挡或消失而导致预测结果的有效性显著下降。这些异常情况均属于异常状态范畴。因此作者引入了两个指标变量s_{cf}s_{cc}以分别用于表征mask预测的有效性与集中程度。
\mathcal{S}_{\text{cf}} = \frac{\sum_{i,j} \mathcal{P}_{i,j} \cdot \mathcal{M}_{i,j}}{\sum_{i,j} \mathcal{M}_{i,j}}

\bm{\bm{\bm{\bm{\bm{\bm{\bm{\bm{\bm{\bm{\bm{\P}}_{\i,\j}}}}}}}}}}}表示mask中位置(\i,\j)处的预测分数;其中\M$代表二进制掩码(前景像素标记为1、背景像素标记为0),用于描述目标分割结果图中的置信度平均值。
定义一种称为"聚集度分数"的新指标如下:

\ClsCC = \frac{ \max\left( \bigl|\bR_1^c\bigr|, \bigl|\bR_2^c\bigr|, \dots, \bigl|\bR_n^c\bigr| \right) }{ \sum_{k=1}^n |\bR_k^c| }

其中分子部分是所有连通区域的最大面积,
分母部分是所有连通区域面积之和。

然后最终的状态分数定义为
\mathcal{S}_{state}=s_{cf}×s_{cc}

如果\mathcal{S}_{state}大于阈值\mathcal{T},就认为是正常状态,文章里设为0.85。

Feedback

Cropping Strategy Loop

当前的目标bbox尺寸计算结果决定了搜索区域的范围;在实际应用中采取两种不同的策略来处理目标检测问题:针对正常工作状态时(normal state),我们采用最大连通区域并将其最小外接矩形作为目标框(target box);而当系统处于异常检测阶段(abnormal state)时,则采用SiamFC++原有的特征提取模块,并在此基础上进行了优化设计。具体而言,在异常状态下我们的改进包括:同时引入了位置信息、尺度调整以及比例平滑优化。

上图对这种切换机制进行了展示:跟踪器在白色mask和彩色回归框之间切换。当第一列中的回归框失效时(即无法区分两个实例),状态评估器选择了mask框。第二列出现部分遮挡的情况时,由于对象被截断或部分遮挡导致回归框更为完整,在这种情况下分割无法跨越较大的像素区域。第三列描述的是快速运动的情况,在这种情况下回归框能够准确地定位目标对象。相似性编码器的工作区域用青色虚线表示;显著性编码器的工作区域用红色虚线表示,在这种情况下如果倾斜自然则无法正常分割。

Global Modeling Loop :

这部分的目的是动态更新目标的全局特征,如下

在这里插入图片描述

使用预设的mask与图像进行点乘运算后生成纯净的目标图。经resnet-50网络提取目标图的空间特征。随后逐步整合各层空间特征:
\mathcal{G}_\mathcal{t}= (1-S_{state}⋅μ)⋅\mathcal{G}_{t-1}+ S_{state}⋅μ⋅\mathcal{F}_{t}

\mathcal{G}被定义为全局表征特征,在此过程中,
\mathcal{F}则代表经过背景去除后的图像特征,
而参数μ则设定了一个值为0.5。
当目标发生遮挡、消失或者出现分割错误时,
则提取到的特征会对全局表征产生负面影响;
因此建议采用\mathcal{S}_{state}这一机制来缓解跟踪异常带来的负面影响。

Experiments

采用了与SiamFC++类似的策略,在全局特征表征中的部分替代了模型预测使用的mask,并同时冻结了SiamFC++相关模型参数。其中\mathcal{J}用于估计mask与ground truth之间的IOU值,并通过\mathcal{F}评估轮廓的质量表现。此外\mathcal{I}_D则表示\mathcal{J}随着时间推移性能衰减的程度。消融实验及横向对比分析如下:

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~