End-to-End Referring Video Object Segmentation with Multimodal Transformers（MTTR）

阅读量：

一、前言

二、简介

该论文提出了一种简化的基于Transformer架构的RVOS方案，并将其命名为Multimodal Tracking Transformer（MTTR）。该框架将RVOS任务建模为一种序列预测问题，并通过多模态Transformer模型实现对视频信息与文本描述的有效整合。具体而言，在识别目标引用实例之前，该模型会生成一个包含所有检测到物体实例位置与特征的预测序列。

那些具有相同颜色和形状的预测属于同一序列，在不同帧中对同一对象实例进行关注时，其实例预测顺序保持一致。

三、引入

该研究方向由Gavrilyuk及其团队提出, 其主要目标是通过像素级别的分割技术实现对演员及其动作的识别与分析. 为了整合来自视频流及文本描述中的视觉特征、时空信息与语言数据, 当前最先进的一些RVOS算法多依赖于较为复杂的处理架构.

为了应对这些难题同时实现视频与文本的精准配对，在这项研究中我们提出了一种基于transformer架构的端到端RVOS方法。该系统整合了最新的text-based feature extraction和vision-based feature extraction技术，并开发出了一种框架能够在性能上显著优于现有的解决方案。本研究采用了multi-modal transformer架构并将任务建模为sequence prediction问题以提高配准效率与准确性对于给定的一个视频片段及其对应的text query我们的模型能够先于识别引用对象并在整个视频中生成相应的预测序列以确保精确匹配

MTTR采用了基于时间段投票的一种序列选择策略。
这种创新性的推理方案使模型能够聚焦于视频中与文本描述更为相关的部分。
通过让模型决定哪些时间段与文本描述最为相关从而提升了其准确性和效率。
该方法是端到端训练的方式即整个模型可以直接从原始数据中进行训练无需额外预处理或中间步骤。
MTTR系统不具备与文本相关的归纳偏置模块这意味着它不受预先设定规则或假设的影响这使得其能够更好地学习更加通用的特征。

四、框架

VisTR借鉴了DETR的核心理念，并将其应用至视频实例分割领域。该方法将任务建模为一个连续的端到端并行序列预测过程。基于对整个预测序列的全局监督机制，在处理每个视频实例时，VisTR能够系统性地生成相应的有序掩码序列。

|VisTR方法： [arxiv.org/pdf/2011.14503

https://arxiv.org/pdf/2011.14503](https://arxiv.org/pdf/2011.14503 "arxiv.org/pdf/2011.14503")

VisTR框架：

MTTR框架：

该框架主要由四个组成部分构成：特征提取组件、变换器组件；以及实例序列分割与预测组件和实例序列匹配组件。

五、方法

5.1 特征提取

分别从视频的每一帧和文本中提取特征，并通过线性投影将其映射至共同的空间中。随后将各帧的特征展平为一维向量，并将其与对应的文本嵌入进行连接。从而构建了一个多模态序列集合。

5.2 Transformer模块

通过Transformer架构中的编码器层，在同一层内，文本嵌入模块与每个视频帧的视觉特征进行信息交互。随后，在解码器层中（其中每个输入帧被Nq个对象查询所代表），系统通过检索多模态序列中的实体相关信息，并将这些信息存储于对应的对象查询中。不同视频帧所对应的多个对象查询共享相同的可训练参数，并被优化以聚焦于视频中的一致实例。

5.3 实例分割

首先, 采用类似于FPN的Spatial Decoder将提取的视频帧特征序列融合到Transformer编码层输出的多模态序列中, 从而生成具有丰富语义表示能力且空间分辨率较高的视频帧特征图（该网络能够有效捕捉并详细表征关键信息和细节）。

然后针对Transformer解码器输出的实力预测序列生成相应的分割核序列并通过与各自帧特征的卷积操作为Q生成一系列分割掩码

六、结论

方法对比：

消融实验：

全部评论 (0)

还没有任何评论哟~

End-to-End Referring Video Object Segmentation with Multimodal Transformers（MTTR）

一、前言二、简介论文提出了一种简单的基于transformer的RVOS方法，框架称为MultimodalTrackingTransformer（MTTR），将RVOS任务建模为序列预测问题。MT...

CVPR 2021 End-to-End Video Instance Segmentation with Transformers

动机 1、实例分割是计算机视觉的基本任务之一。虽然在图像分割方面取得了重大进展，在视频中分割实例方面，还需要额外做更多的研究进行攻克。 2、最先进的方法通常是开发复杂的流程来解决这项任务。自上而下的方...

论文复现CVPR2022：End-to-End Referring Video Object Segmentation with Multimodal Transformers端到端多模态视频对象分割

论文地址：<https://arxiv.org/pdf/2111.14821v2 代码地址：<https://github.com/mttr2021/MTTR 论文提出了一种基于transformer...

End-to-End Object Detection with Transformers

EndtoEndObjectDetectionwithTransformers 会议：2020ECCV 论文：<https://arxiv.org/abs/2005.12872 代码：<https:/...

End-to-End Video Instance Segmentation with Transformers论文学习笔记

简介：视频实例分割是对于视频中感兴趣的对象实例进行分类，分割和跟踪的任务，文章提出了一个被称为VisTR的视频实例分割框架，它将分个任务视为一个端到端的并行序列解码预测问题，即给定一个由多个图像帧组成...

End-to-End Object Detection with Transformers解读

paper:https://arxiv.org/abs/2005.12872 Github开源地址：facebookresearch/detr 一、创新点将目标检测任务转化为一个序列预测（setpr...

HOTR: End-to-End Human-Object Interaction Detection with Transformers

模型在vcoco场景1上的验证效果模型在vcoco场景2上的验证效果模型在HICODET上的验证效果 HOTR的模型结构图如下所示: 在代码中如何实现的? 1. 在Backbone中: 1将图片[b...

DETR:End-to-End Object Detection with Transformers

论文地址：https://arxiv.org/abs/2005.12872 代码地址：https://github.com/facebookresearch/detr 在看完Transformer之后...

DETR：End-to-End Object Detection with Transformers

【DETR论文精读【论文精读】哔哩哔哩】https://b23.tv/Iy9k4O2 【DETR源码解读4哔哩哔哩】https://b23.tv/Qp1uH5v 简介：时间：2020 会议：ECCV...

End-to-End Object Detection with Transformers论文解析

传统方法存在的问题目标检测领域，从目标检测开始火到detr（DetectionTransformers）都很少有端到端的方法，大部分方法最后至少需要后处理操作（NMS,nonmaximumsuppr...

是否确定退出登录?

End-to-End Referring Video Object Segmentation with Multimodal Transformers（MTTR）

一、前言

二、简介

三、引入

四、框架

五、方法

5.1 特征提取

5.2 Transformer模块

5.3 实例分割

六、结论

全部评论 (0)

相关文章推荐

End-to-End Referring Video Object Segmentation with Multimodal Transformers（MTTR）

CVPR 2021 End-to-End Video Instance Segmentation with Transformers

论文复现CVPR2022：End-to-End Referring Video Object Segmentation with Multimodal Transformers端到端多模态视频对象分割

End-to-End Object Detection with Transformers

End-to-End Video Instance Segmentation with Transformers论文学习笔记

End-to-End Object Detection with Transformers解读

HOTR: End-to-End Human-Object Interaction Detection with Transformers

DETR:End-to-End Object Detection with Transformers

DETR：End-to-End Object Detection with Transformers

End-to-End Object Detection with Transformers论文解析