Advertisement

Temporal Context Enhanced Referring Video Object Segmentation

阅读量:

一、前言

论文地址:

|[Temporal Context Enhanced Referring Video Object Segmentation

icon-default.png?t=O83A
https://openaccess.thecvf.com/content/WACV2024/papers/Hu_Temporal_Context_Enhanced_Referring_Video_Object_Segmentation_WACV_2024_paper.pdf](https://openaccess.thecvf.com/content/WACV2024/papers/Hu_Temporal_Context_Enhanced_Referring_Video_Object_Segmentation_WACV_2024_paper.pdf "Temporal Context Enhanced Referring Video Object Segmentation")

二、简介

基于对前人研究框架的深入分析可知,在运用VSwin Transformer等时空主干架构进行特征提取的过程中以及后续的处理环节中会出现时间上下文聚合的现象;然而,在编码器与解码器各自处理单个帧的过程中这一现象并未出现。

该系统构建了一个融合(FTF)模块用于视频编码过程,并通过记忆标记整合视频片段中的各帧特征以提高效率。内存标记系统首先独立地提取了每个视频片段中的信息,并在此基础上利用其他相关帧的信息进一步优化编码过程以实现更高的准确性与稳定性

在解码过程中开发了一个实例查询转换器(IQT)模块以整合不同帧的数据

三、框架

顶部分析图展示了整体架构。左下方和右下方的子图各自标识为帧令牌融合编码器(FTF)和实例查询转换解码器(IQT)。相同背景色在同一层次的注意力块分配相同权重系数。

四、Frame Token Fusion Encoder

受视频实例分割框架IFC的启发,我们设计了一个高效而简单的结构。

每一帧的特征随后将通过同一个 deformable self-attention 模型进行处理,在各自独立地汇总每帧的空间信息(如图1所示区域)。为了更好地捕捉细节特征,本方法采用了经过随机初始化且可训练的记忆令牌组来提取并表示相关信息。

F_memory用于查询位置相关的键值对,并将F_vis用作存储位置信息的键和值,在此过程中能够从中提取多层次特征(如图1所示的深蓝色区域表示)。

3.编码出的记忆令牌现在单独携带来自各个帧的所有信息。这些信息随后被转发至自注意力模块(如图1中的粉红色模块所示)。自注意力模块负责处理帧间的通信。

随后,在处理过程中随后采用了朴素的交叉-注意力机制来更新与内存标记相关联的帧特征标记F_{vis}。每个这样的交叉-注意力机制之后都接有一个简单的FFN结构。输出特征现在携带来自相应帧和其他所有其他所有其他所有其他所有信息源的信息。

随后,在处理过程中随后采用了朴素的交叉-注意力机制来更新与内存标记相关联的帧特征标记F_{vis}。每个这样的交叉-注意力机制之后都接有一个简单的FFN结构。输出特征现在携带来自相应帧和其他所有其他所有其他所有其他所有信息源的信息。

五、Instance Query Transformer Decoder

编码解码器模块基于多头注意力机制,在不同时间点的特征间进行分析以提升时间相关性的捕捉能力

基于编码器输出的帧特征令牌作为指导,在每个帧生成Q个候选实例的过程中进行操作。具体而言,在这一过程中,实例查询首先独立聚合每帧的空间特征信息,并随后将所有属于同一实例的帧的时间特征进行融合。在此基础上,通过一种可变形的交叉注意力机制从编码器输出的帧特征令牌中提取相关的信息(如图1所示)。

基于不同帧的实例查询被重新组织成组(如图1所示中的浅蓝色区域),随后通过自注意力机制处理这些组(如图1所示中的深蓝色区域),从而完成各组间的通信过程,并对时态上下文进行整合。

该种策略使从多个帧中的图像包含不同视角的实例有助于实现图像分割;尤其是当参考实例处于某些情况下受到遮挡或发生运动模糊时

六、结果

在RefYoutube-VOS上与最先进方法的比较。

新型方法在A2D数据集上的系统性评估显示出了显著的优势。其中最优的结果采用了标记表示法进行标注,在次优的表现中则采用了__标记__进行区分

mAP@k代表了具有掩码注释且IoU超过阈值k的所有实例数量的比例;整体IoU衡量了测试数据集中预测与标注之间像素级交并比的整体比例;mIoU则计算了验证集每帧上每一个实例IoU结果集合中的均值

全部评论 (0)

还没有任何评论哟~