Advertisement

End-to-End Referring Video Object Segmentation with Multimodal Transformers(MTTR)

阅读量:

一、前言

二、简介

该论文提出了一种简化的基于Transformer架构的RVOS方案,并将其命名为Multimodal Tracking Transformer(MTTR)。该框架将RVOS任务建模为一种序列预测问题,并通过多模态Transformer模型实现对视频信息与文本描述的有效整合。具体而言,在识别目标引用实例之前,该模型会生成一个包含所有检测到物体实例位置与特征的预测序列。

那些具有相同颜色和形状的预测属于同一序列,在不同帧中对同一对象实例进行关注时,其实例预测顺序保持一致。

三、引入

该研究方向由Gavrilyuk及其团队提出, 其主要目标是通过像素级别的分割技术实现对演员及其动作的识别与分析. 为了整合来自视频流及文本描述中的视觉特征、时空信息与语言数据, 当前最先进的一些RVOS算法多依赖于较为复杂的处理架构.

为了应对这些难题同时实现视频与文本的精准配对,在这项研究中我们提出了一种基于transformer架构的端到端RVOS方法。该系统整合了最新的text-based feature extraction和vision-based feature extraction技术,并开发出了一种框架能够在性能上显著优于现有的解决方案。本研究采用了multi-modal transformer架构并将任务建模为sequence prediction问题以提高配准效率与准确性对于给定的一个视频片段及其对应的text query我们的模型能够先于识别引用对象并在整个视频中生成相应的预测序列以确保精确匹配

  • MTTR采用了基于时间段投票的一种序列选择策略。
    这种创新性的推理方案使模型能够聚焦于视频中与文本描述更为相关的部分。
    通过让模型决定哪些时间段与文本描述最为相关从而提升了其准确性和效率。
  • 该方法是端到端训练的方式 即整个模型可以直接从原始数据中进行训练无需额外预处理或中间步骤。
    MTTR系统不具备与文本相关的归纳偏置模块 这意味着它不受预先设定规则或假设的影响 这使得其能够更好地学习更加通用的特征。

四、框架

VisTR借鉴了DETR的核心理念,并将其应用至视频实例分割领域。该方法将任务建模为一个连续的端到端并行序列预测过程。基于对整个预测序列的全局监督机制,在处理每个视频实例时,VisTR能够系统性地生成相应的有序掩码序列。

|VisTR方法: [arxiv.org/pdf/2011.14503

icon-default.png?t=O83A
https://arxiv.org/pdf/2011.14503](https://arxiv.org/pdf/2011.14503 "arxiv.org/pdf/2011.14503")

VisTR框架:

MTTR框架:

该框架主要由四个组成部分构成:特征提取组件、变换器组件;以及实例序列分割与预测组件和实例序列匹配组件。

五、方法

5.1 特征提取

分别从视频的每一帧和文本中提取特征,并通过线性投影将其映射至共同的空间中。随后将各帧的特征展平为一维向量,并将其与对应的文本嵌入进行连接。从而构建了一个多模态序列集合。

5.2 Transformer模块

通过Transformer架构中的编码器层,在同一层内,文本嵌入模块与每个视频帧的视觉特征进行信息交互。随后,在解码器层中(其中每个输入帧被Nq个对象查询所代表),系统通过检索多模态序列中的实体相关信息,并将这些信息存储于对应的对象查询中。不同视频帧所对应的多个对象查询共享相同的可训练参数,并被优化以聚焦于视频中的一致实例。

5.3 实例分割

首先, 采用类似于FPN的Spatial Decoder将提取的视频帧特征序列融合到Transformer编码层输出的多模态序列中, 从而生成具有丰富语义表示能力且空间分辨率较高的视频帧特征图(该网络能够有效捕捉并详细表征关键信息和细节)。

然后针对Transformer解码器输出的实力预测序列生成相应的分割核序列 并通过与各自帧特征的卷积操作为Q生成一系列分割掩码

六、结论

方法对比:

消融实验:

全部评论 (0)

还没有任何评论哟~