Advertisement

论文阅读《STEm-Seg: Spatio-temporal Embeddings for Instance Segmentation in Videos》

阅读量:

论文链接:https://arxiv.org/abs/2003.08429

这篇名为STEmSeg的文章于ECCV20会议上发布,并专注于Video Instance Segmentation(VIS)。该方法提出了一种端到端的方法,并显著降低了VIS流程的复杂度。同时在多个数据集上取得了最佳性能。

过去许多经典的方案都沿用top-down策略,在模仿MOT中的tracking-by-detection框架下运作。这些方案通常会采用多模型协同工作的方式,在单帧图像层面进行目标检测,在帧间进行关联操作,并运用appearance model处理遮挡问题。这种基于 pipeline的设计虽然在精确度上表现优异,但在计算复杂度方面却显得相对繁重,并且难以实现端到端的高效处理

因此作者别出心裁地基于Perceptual Grouping Theory提出了一种自底向上的方法。其核心在于利用spatio-temporal embeddings对每帧中的每一个像素赋予高维表示,并使这些具有相似特性的像素在嵌入空间中呈现出相似性从而被归为同一簇

Problem Formulation

假设视频片段包含 T 帧,并且其分辨率大小为 H \times W。由于视频采用RGB三通道编码方式,则 clip 可以表示为 \chi \in R^{N\times3}(其中 N = T \times H \times W),并假定整个 clip 中存在 K 个独立的实例。本研究提出的方法与传统方法存在显著差异:作者提出的方法不仅能够对每个 pixel 的 embedding 向量进行聚类分析,并且还需要估计每个聚类中心点的位置以及各聚类分量的方差值参数,在这一基础上实现更为高效的速度推理计算过程。总结而言,该网络架构可被视为一种多分支结构:第一分支输出 \varepsilon \in R^{N\times E}(每个 pixel 的 E 维嵌入向量集合);第二分支输出 V \in R^{N\times E}_{+}(每个 pixel 对应的一个正数方差向量);第三分支则生成一个归一化 Heatmap 表示矩阵 H\in [0,1]^N(用于表征各个实例中心的空间定位信息)。

对于每一个Instance(假设该实例为第j个),我们将它被建模为一个服从高斯分布N(\mu_{j},\sum_{j})的概率模型;基于前面所述的output,在训练阶段中我们能够推导出每个实例对应的均值μ_j和方差σ_j。

在这里插入图片描述

给定任一像素i而言,在分析其embedding特征及其variance特性后可通过以下公式计算该实例j的条件概率:P(j|i)

在这里插入图片描述

我们可以用\hat{C_{j}}来表示代表第j个实例的所有像素点集合,并且只有当满足条件p_{ij}>0.5时才进行进一步的计算;具体形式如下:

在这里插入图片描述

在训练过程中,在training阶段的任务就是确定最佳参数\mu_{j}^{OPT},\sum_{j}^{OPT}以最大化IOU值。

在这里插入图片描述

通过上述4个公式,对每一个instance分别进行计算。

Embedding Representation

利用该网络结构能够生成任意维度的空间关系向量。然而,在构建每个像素的空间关系向量时,默认将其位置编码视为一个有效的初始特征向量这一假设存在一定的合理性基础。为此我们引入了一个混合函数\phi: \mathbb{R}^E \rightarrow \mathbb{R}^E来处理这一问题。值得注意的是,在构建每个像素的空间关系向量时,默认将其位置编码视为一个有效的初始特征向量这一假设存在一定的合理性基础。为此我们引入了一个混合函数\phi: \mathbb{R}^E \rightarrow \mathbb{R}^E来处理这一问题。考虑到空间和时间维度的存在

但是除了上述三个必要的时空维度信息外,在此基础之上我们还可以进一步设定额外的一个自由度参数例如设定E值为4这样该混合函数则可表示为\phi_{xyzf}(e_i)=e_i + [x_i, y_i, t_i, 0]这一做法并非没有风险因为过多引入自由度可能会导致模型复杂度上升进而影响性能效果因此建议在实际应用中参考实验结果部分进行详细讨论

Inference

在Inference阶段缺乏可用的Ground Truth数据的情况下,在以下四个公式中无法计算出每一个instance对应的embedding均值与方差\mu_{j},\sum_{j}。因此在此场景下引入Heatmap来辅助具体流程如图所示

在这里插入图片描述

(1)根据Heatmap选出instance的中心点;

(2)找到该中心点所对应的embedding和方差向量;

采用该instance的均值与方差作为其特征表示,并利用计算公式(2)评估单个pixel是否属于该实例。

因为部分像素已经被归类到实例j中,在考虑长远因素的情况下,我们决定去除这些像素的信息

(5)重复1-4的操作,知道Heatmap为空集,或者最大值小于我们设定的threshold。

需要注意的是,在直接将T帧全部加载到内存时体积过大问题比较突出因此作者采取了一种分割策略将整个序列拆分成若干个T_{c}块每一块之间通过Linear Assignment进行连接以实现整体目标效果

Losses

损失函数由三部分组成:

在这里插入图片描述

(1)在 embedding 基础上应用Lov`asz hinge Loss 来提升 GT 和预测值之间的 IOU 关系;(2)在方差部分的处理中引入了 smoothness Loss 表示法,在 CVPR 2019 的一篇实例分割论文中已有类似的处理方式,在这里我们可以将其视为 L1 Loss 的基础应用;(3)对于 Heatmap 的损失计算,则采用了基本的 L2 Loss 方式来进行评估

Network Architecture

在这里插入图片描述

ResNet+FPN架构中,在四个不同尺度的特征图上分别施加3D卷积操作,并将处理后的结果进行连接。需要注意的是,在这一过程中,默认较大的分辨率对应的特征图经历较少的3D卷积操作以减少内存占用和计算负担。

实验部分

DAVIS19上的消融实验:

在这里插入图片描述

YouTube VIS数据集和其他方法的对比:

在这里插入图片描述

MOTS数据集:

在这里插入图片描述

总结

作者提出了一种层次递进式的VIS处理流程,在实现上采用了端到端的方式。相比于基于跟踪检测的自顶向下的方法而言,该流程简化了过多步骤。该方法通过将每个实例建模为一个包含时空特征的概率高斯分布来判断其他像素属于该实例的概率,在设计上非常巧妙。其中许多细节仍需从代码中提取。

全部评论 (0)

还没有任何评论哟~