Advertisement

《RVOS:End-to-End Recurrent Network for Video Object Segmentation》论文笔记

阅读量:

参考代码:RVOS

1. 概述

该研究提出了一种 novel 的多目标视频分割方法 RVOS(基于 recurrent 网络的 Video Object Segmentation)。本文探讨了两项具有创新性的技术要点:其一,在不依赖第一帧标注的情况下实现了 finetuning 过程以完成视频分割任务;并可利用第一帧已标注结果初始化 RNN 初始状态以提升分割精度;其二,该方法充分结合了帧内空间连续性和帧间时间连续性的特点,在时空维度上构建特征表示;通过 ConvLSTM 和类别相关性机制有效编码对应的分割结果;实验表明,在 Pascal VOC 检测基准下的性能表现优异;运行效率达到每帧 44ms。

在某些基于 video 的分割技术中将每个视频帧各自独立处理,并未充分利用前后帧之间的关联性来提升性能;而是一些则会采用前向传播结果或是运动估计数据等手段来获取时间序列上的辅助信息。然而,在本文中则是借鉴了 recurrent 网络(尤其是 ConvLSTM)的时间序列特性用于对视频分割信息进行编码与解码。

在这里插入图片描述

2. 方法设计

2.1 网络结构

文章所提出的视频分割网络在架构上与UNet类似的分割模型属于编码-解码架构的网络体系,在依据输入配置划分后可分为零示例和一示例VOS两类,在每帧一次计算层中(如图2所示)该网络结构得以具体体现

在这里插入图片描述

2.2 编码器部分

该文章采用了ResNet-101架构作为编码器模块,在编码器中提取了各个阶段的特征f_t=\{f_{t, 1} , f_{ t , 2 }, \dots , f_ { t , k }\};随后,在输入RGB通道数据时会根据是否属于oneshot阶段来增加额外的分割结果输出。

2.3 解码器部分

在文章中将ConvLSTM配置为解码器模块,在t时刻整合其前向传播过程中的所有输出信息集合f_t=\{f_{t,1},f_{t,2},\dots,f_{t,k}\}。这些信息被用来生成当前时刻所有可能存在的目标区域\{S_{t,1},S_{t,2},\dots,S_{t,N}\}。其中S_{t,i}表示当前时刻分割出的第i个物体类别,在此框架下这反映了同一时刻内不同物体之间的空间关联关系。需要注意的是,在此框架中对各分割区域的目标类别排序并未设定固定规则。此外,在同类目标在连续帧中的信息融合过程中建立了时间轴上的关联特征(如图3所示)。在这里对于分割目标的顺序是没有任何强制性要求的,在这种情况下使用的损失函数是基于软性IoU(Soft IoU)作为损失函数。

在这里插入图片描述

在图3右侧图形中对时空域进行关联处理,并使用h_{t,i,k}表示第t帧经过第k个ConvLSTM后针对第i个目标的输出结果。其中h_{t,i,k}表示第t帧经过第k个ConvLSTM后针对第i个目标的输出结果。

  • 1)在第t帧中,特征f_t由编码器生成
    • 2)当前时刻第i−1个物体经过Conv LSTM层后的状态信息为h{t, i−1, k}$
    • 3)上一个时刻中与当前相同的物体经过 Conv LSTM 层的状态信息为 h\{t−1, i, k\}
    • 4)针对目标 i, 上一个时刻所生成的最后一层状态信息由 $d{t−1, i} 表示

从而ConvLSTM的工作流程可被描述如下:
h_{input}=[B_2(h_{t,i,k-1})|f_{t,k}^{'}|S_{t-1,i}]
h_{state}=[h_{t,i-1,k}|h_{t-1,i,k}]
h_{t,i,k}=ConvLSTM_k(h_{input},h_{state})
其中,B_2表示双线性上采样操作,而f_{t,k}经过卷积层维度缩减后的特征图则标记为f_{t,k}^{'}

在编码器内部生成特征的过程中进行优化时

在上述式子中因为需要用到i-1的目标解雇,则第一个目标的h_{state}被定义为:
h_{input}=[Z|h_{t-1,i,k}]
其中,Z是一个零矩阵表示前面的空间中没有目标。

3. 实验结果

是否使用空间与时序信息对性能的影响:

在这里插入图片描述

one-shot的分割性能:

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~