论文阅读《STEm-Seg: Spatio-temporal Embeddings for Instance Segmentation in Videos》

阅读量：

论文链接：https://arxiv.org/abs/2003.08429

这篇名为STEmSeg的文章于ECCV20会议上发布，并专注于Video Instance Segmentation（VIS）。该方法提出了一种端到端的方法，并显著降低了VIS流程的复杂度。同时在多个数据集上取得了最佳性能。

过去许多经典的方案都沿用top-down策略，在模仿MOT中的tracking-by-detection框架下运作。这些方案通常会采用多模型协同工作的方式，在单帧图像层面进行目标检测，在帧间进行关联操作，并运用appearance model处理遮挡问题。这种基于 pipeline的设计虽然在精确度上表现优异，但在计算复杂度方面却显得相对繁重，并且难以实现端到端的高效处理

因此作者别出心裁地基于Perceptual Grouping Theory提出了一种自底向上的方法。其核心在于利用spatio-temporal embeddings对每帧中的每一个像素赋予高维表示，并使这些具有相似特性的像素在嵌入空间中呈现出相似性从而被归为同一簇

Problem Formulation

假设视频片段包含 $T$ 帧，并且其分辨率大小为 $H \times W$ 。由于视频采用RGB三通道编码方式，则 clip 可以表示为 $\chi \in R^{N\times3}$ （其中 $N = T \times H \times W$ ），并假定整个 clip 中存在 $K$ 个独立的实例。本研究提出的方法与传统方法存在显著差异：作者提出的方法不仅能够对每个 pixel 的 embedding 向量进行聚类分析，并且还需要估计每个聚类中心点的位置以及各聚类分量的方差值参数，在这一基础上实现更为高效的速度推理计算过程。总结而言，该网络架构可被视为一种多分支结构：第一分支输出 $\varepsilon \in R^{N\times E}$ （每个 pixel 的 E 维嵌入向量集合）；第二分支输出 $V \in R^{N\times E}_{+}$ （每个 pixel 对应的一个正数方差向量）；第三分支则生成一个归一化 Heatmap 表示矩阵 $H\in [0,1]^N$ （用于表征各个实例中心的空间定位信息）。

对于每一个Instance（假设该实例为第j个），我们将它被建模为一个服从高斯分布 $N(\mu_{j},\sum_{j})$ 的概率模型；基于前面所述的output，在训练阶段中我们能够推导出每个实例对应的均值μ_j和方差σ_j。

给定任一像素i而言，在分析其embedding特征及其variance特性后可通过以下公式计算该实例j的条件概率： $P(j|i)$ 。

我们可以用 $\hat{C_{j}}$ 来表示代表第j个实例的所有像素点集合，并且只有当满足条件 $p_{ij}>0.5$ 时才进行进一步的计算；具体形式如下：

在训练过程中，在training阶段的任务就是确定最佳参数 $\mu_{j}^{OPT},\sum_{j}^{OPT}$ 以最大化IOU值。

通过上述4个公式，对每一个instance分别进行计算。

Embedding Representation

利用该网络结构能够生成任意维度的空间关系向量。然而，在构建每个像素的空间关系向量时，默认将其位置编码视为一个有效的初始特征向量这一假设存在一定的合理性基础。为此我们引入了一个混合函数 $\phi: \mathbb{R}^E \rightarrow \mathbb{R}^E$ 来处理这一问题。值得注意的是，在构建每个像素的空间关系向量时，默认将其位置编码视为一个有效的初始特征向量这一假设存在一定的合理性基础。为此我们引入了一个混合函数 $\phi: \mathbb{R}^E \rightarrow \mathbb{R}^E$ 来处理这一问题。考虑到空间和时间维度的存在

但是除了上述三个必要的时空维度信息外，在此基础之上我们还可以进一步设定额外的一个自由度参数例如设定E值为4这样该混合函数则可表示为 $\phi_{xyzf}(e_i)=e_i + [x_i, y_i, t_i, 0]$ 这一做法并非没有风险因为过多引入自由度可能会导致模型复杂度上升进而影响性能效果因此建议在实际应用中参考实验结果部分进行详细讨论

Inference

在Inference阶段缺乏可用的Ground Truth数据的情况下，在以下四个公式中无法计算出每一个instance对应的embedding均值与方差 $\mu_{j},\sum_{j}$ 。因此在此场景下引入Heatmap来辅助具体流程如图所示

（1）根据Heatmap选出instance的中心点；

（2）找到该中心点所对应的embedding和方差向量；

采用该instance的均值与方差作为其特征表示，并利用计算公式（2）评估单个pixel是否属于该实例。

因为部分像素已经被归类到实例j中，在考虑长远因素的情况下，我们决定去除这些像素的信息

（5）重复1-4的操作，知道Heatmap为空集，或者最大值小于我们设定的threshold。

需要注意的是，在直接将T帧全部加载到内存时体积过大问题比较突出因此作者采取了一种分割策略将整个序列拆分成若干个 $T_{c}$ 块每一块之间通过Linear Assignment进行连接以实现整体目标效果

Losses

损失函数由三部分组成：

（1）在 embedding 基础上应用Lov`asz hinge Loss 来提升 GT 和预测值之间的 IOU 关系；（2）在方差部分的处理中引入了 smoothness Loss 表示法，在 CVPR 2019 的一篇实例分割论文中已有类似的处理方式，在这里我们可以将其视为 L1 Loss 的基础应用；（3）对于 Heatmap 的损失计算，则采用了基本的 L2 Loss 方式来进行评估

Network Architecture

ResNet+FPN架构中，在四个不同尺度的特征图上分别施加3D卷积操作，并将处理后的结果进行连接。需要注意的是，在这一过程中，默认较大的分辨率对应的特征图经历较少的3D卷积操作以减少内存占用和计算负担。

实验部分

DAVIS19上的消融实验：

YouTube VIS数据集和其他方法的对比：

MOTS数据集：

总结

作者提出了一种层次递进式的VIS处理流程，在实现上采用了端到端的方式。相比于基于跟踪检测的自顶向下的方法而言，该流程简化了过多步骤。该方法通过将每个实例建模为一个包含时空特征的概率高斯分布来判断其他像素属于该实例的概率，在设计上非常巧妙。其中许多细节仍需从代码中提取。

全部评论 (0)

还没有任何评论哟~

论文阅读《STEm-Seg: Spatio-temporal Embeddings for Instance Segmentation in Videos》

论文链接：https://arxiv.org/abs/2003.08429 STEmSeg是ECCV20上的一篇文章，做的是VideoInstanceSegmentation（VIS），提出了一种可以...

Sequential Grouping Networks for Instance Segmentation论文阅读

论文链接：http://www.cs.utoronto.ca/fidler/papers/sgniccv17.pdf 一、简介该文章提出了SGN以完成实例分割任务，为了从像素中逐步组成目标，SGN使...

论文阅读CondInst《Conditional Convolutions for Instance Segmentation》

论文链接：http://xxx.itp.ac.cn/pdf/2003.05664v3 CondInst是ECCV20上的一篇关于实例分割的文章，个人感觉和YOLACT的思路有相似之处（CondInst...

【论文阅读】【ICCV】WaterMask: Instance Segmentation for Underwater Imagery

引言任务：水下图像实例分割论文地址： WaterMask:InstanceSegmentationforUnderwaterImagery 代码地址： <https://github.com/Li...

Spatio-Temporal Fusion based Convolutional Sequence Learning for Lip Reading论文阅读

Abstract 目前最先进的唇读方法是基于自然机器翻译和音频语音识别的seq2seq架构。但是这种方案没有充分利用唇动的特征，有两种缺陷：首先是短期的时间依赖关系是嘴唇图像到发音嘴型映射的关键但是没...

KIMI带我读论文-CVPR2024-《Teeth-SEG: An Efficient Instance Segmentation Framework for Orthodontic...》

Kimi:这篇论文的核心内容是提出了一个名为TeethSEG的高效实例分割框架，专门用于正畸治疗中的牙齿定位、分割和标记。以下是关键点的概述： 1. 背景与动机：牙齿在2D图像中的定位、分割和标记对...

《YOLACT:Real-time Instance Segmentation》论文阅读

论文链接：https://arxiv.org/abs/1904.02689 一、简介文章提出了一个简单的全卷积实时实例分割模型，在一台泰坦Xp上以33.5fps的速度在MSCOCO上达到29.8ma...

Mask Encoding for Single Shot Instance Segmentation论文阅读/翻译

MaskEncodingforSingleShotInstanceSegmentation论文阅读/翻译论文地址 Abstract Introduction OurMethod NetworkArc...

论文阅读：Two-Stream Convolutional Networks for Action Recognition in Videos

论文阅读：TwoStreamConvolutionalNetworksforActionRecognitioninVideos 摘要主要研究如何使用深度卷积神经网络去做视频里的动作识别，难点在于同时...

论文阅读：Unsupervised Domain Adaptation for Face Recognition in Unlabeled Videos

概述： UnsupervisedDomainAdaptationforFaceRecognitioninUnlabeledVideos，ICCV2017的文章，实现的是用domainadaptatio...

是否确定退出登录?

论文阅读《STEm-Seg: Spatio-temporal Embeddings for Instance Segmentation in Videos》

Problem Formulation

Embedding Representation

Inference

Losses

Network Architecture

实验部分

总结

全部评论 (0)

相关文章推荐

论文阅读《STEm-Seg: Spatio-temporal Embeddings for Instance Segmentation in Videos》

Sequential Grouping Networks for Instance Segmentation论文阅读

论文阅读CondInst《Conditional Convolutions for Instance Segmentation》

【论文阅读】【ICCV】WaterMask: Instance Segmentation for Underwater Imagery

Spatio-Temporal Fusion based Convolutional Sequence Learning for Lip Reading论文阅读

KIMI带我读论文-CVPR2024-《Teeth-SEG: An Efficient Instance Segmentation Framework for Orthodontic...》

《YOLACT:Real-time Instance Segmentation》论文阅读

Mask Encoding for Single Shot Instance Segmentation论文阅读/翻译

论文阅读：Two-Stream Convolutional Networks for Action Recognition in Videos

论文阅读：Unsupervised Domain Adaptation for Face Recognition in Unlabeled Videos