Advertisement

MUTR-Referred by Multi-Modality- A Unified Temporal Transformer for Video Object Segmentation

阅读量:

MUTR:Modeled through Multi-Modality: A Comprehensive Temporal Transformer of video object segmentation.

多模态参考: 用于视频对象分割的统一时态变换器


出版年份:二零二三年\ 出版期刊:AAAI-2024\ 文章作者:袁士林、张润瑞、郭紫宇、陈文超、张薇、李鸿阳、乔宇、董浩、何忠江、高鹏


摘要+引言+结论:

研究背景:

探索模态内的语义对齐和跨帧的视觉对应关系具有挑战性

目前的缺陷:

现有的技术手段分别设计了基于不同模态特征的网络架构,并未考虑目标间的关联及其在时间上的连续性。

1、性能有待加强,忽略了跨帧的多模态信息

目前的方法主要聚焦于独立帧内视觉与语言的结合以及视觉与音频的融合,并主要通过基于跨模态的关注机制和基于动态卷积的特征提取来实现特征交互。

然而这忽视了跨帧的多模态时间信息其在视频中的统一目标分割与追踪上具有关键作用

2、不够统一,不同模态的提示没有统一的框架

其次,在给定的语言与音频两种模态的参照物下,现有工作通过运用不同架构的设计方案与训练方法来分别应对每一种模态的独特特性。

多模态VOS的两大挑战

1、探索视频中丰富的时空一致性,

2、协调图像、语言和音频之间的多模态语义。

研究设计(这篇文献的研究方法是什么,数据是怎么获取的):

本文提出了用于指代视频对象分割的多模态统一时间转换器MUTR。

MUTR首次采用了统一的框架处理语言和音频的提示信息

采用类似于DETR的编码器-解码器转换器作为核心架构模块来负责处理不同帧内的视觉信息。在现有架构基础上开发了两个新型注意力机制模块,并分别用于完成低层次多模态时间聚合(MTA)以及高层次多目标时间交互(MTI)。

低层次的多模态时间聚合( MTA )

在transformer架构之前阶段,在经过编码处理的referring信息被用于查询之后,借助MTA模块整合了视觉信息与时间特征。

通过连接相邻帧的视觉特征来实现多模块token间的相互作用,在空间上利用连续的空间注意机制来逐步积累不同尺度的时间视觉特征

优点:

这一技术有助于促进低层次跨模态对齐及时间一致性。随后,在MTA处理后获取多模态令牌后,将其作为对象查询输入到Transformer中进行逐帧解码。

高层次的多目标时间交互( MTI )

进行帧间对象级的交互,维持一组视频级的查询表示,用于关联帧间对象

该模块提升了实例级时空通信的能力,并在视频处理中实现了对象分割后的视觉关联建立

最后,在借鉴先前研究成果的基础上(Wu等人分别于2021年和2022年发表的相关研究),我们采用了一种新的方法:通过分割头对多模态输入进行处理以生成目标掩码。

基于DETR架构设计了一种转换器模型,在接收文本或音频输入时能够精准识别并引用指定的目标视频对象,并将其有效地分离出来。具体而言,在深入研究了视频与多模态信号之间的内在联系后,我们提出了两种方法以深入探索视频与多模态信号间的时间关联性

首先, 对于Transformer之前的低级时间聚合, 我们通过多模态参考从连续的视频帧中提取多尺度的视觉线索, 这有效赋予了文本或音频信号以时间知识, 并促进了模态之间的语义对齐.

其次,在Transformer之后实现的高级时间交互中**我们基于不同的人脸嵌入进行帧间特征交互,则能为视频跟踪任务建立更加精确的对象匹配机制。

本文的重点是围绕视频指代分割展开研究,并通过前面两个部分强化帧间关联以提升模型对事件知识的理解能力。

实验结果(研究获得了什么结果):

基于Ref - YouTube - VOS及AVSBench数据集的研究中,MUTR通过分别实现文本与音频子任务的优化,在J & F评价指标上实现了比 baseline提升了4.2%及8.7%的性能表现,从而充分验证了我们对统一多模态视觉语义分割(VOS)方法的有效性

YouTube - VOS

Ref - DAVIS 2017

AVSBench

基础知识:

DETR


图表:

图1:

在这里插入图片描述

基于视频对象分割的MUTR整体处理流程中,我们开发出一个基于统一架构下的Transformer模型来解决不同模态的数据对应的视频目标分割问题,并为此设计了专门的MTA模块与MTI模块分别用于实现低层次的不同尺度特征融合以及高层次的目标间的复杂关系协调

图2:

在这里插入图片描述
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

多层次的时间聚合策略中包含多个层级的时间分辨率设置。针对帧间交互设计的底层多模态时间聚合机制中包含了MTA模块。该模块能够生成具有多模态知识表示的令牌,并将其提供给 Transformer 解码器作为输入查询。

图3:

在这里插入图片描述

多目标时空交互中,我们基于MTI模块框架实现各帧间的对象级互动,并构建了一组跨帧的目标检索表以辅助关联操作

表1:

在这里插入图片描述

表2:

在这里插入图片描述

表3-6:

使用了多模态联合训练后性能有所提升

在这里插入图片描述

图4:

在这里插入图片描述

我们对MUTR模型进行了定性评估的结果。通过可视化实验,在R-Video Object Segmentation(VOS)基准上对比了ReferFormer与MUTR的方法;同时,在AV-VOS基准上展示了与Zhou等人(2022)提出的基线方法相比的结果。相较于Refer Former方法,在分割多个形态各异的目标时展现出了更高的时间一致性;同时,在实验对比中发现其能够有效应对复杂的遮挡问题

表7:消融实验

在这里插入图片描述

疑问:(在粗读的过程中的疑问)

在图中基于AV - VOS(Zhou等, 2022年的)基准模型的基础上,其具体实现机制是什么?MUTR能够处理严重遮挡。

音频引导与文字引导的区别在于(不是很重要)


研究目的:

开发出了一个统一架构的Transformer模型用于处理多源感知信息所涉及的视频目标分割

为了更精确地对齐时间信息与其他多模态信号间的差异性关系问题,在研究领域中开发了两个新型注意力机制模块——MHA(Multi-Head Attention)与MHI(Multi-Scale Interaction)。其中一个是专门处理低尺度特征融合问题而设计的模块;另一个则负责协调多个目标之间的互动关系。通过这两者协同工作,在视频数据中实现了卓越的跨模态分析效果

理论基础:

Referring video object segmentation (R-VOS).

应用语言引导的图像分割方法

独立应用于视频帧

忽略了时间信息,因此难以处理常见的视频难题,如再现中的物体消失。

An alternative method entails spreading the target mask identified from a reference frame and selecting the object for segmentation in accordance with a visual grounding mechanism (Yan 等, 2023, p. 2)

传播从关键帧中检测到的目标掩膜

并基于vision-ground模型选择待分割对象

Despite incorporating a certain degree of temporal data, its cumbersome multi-step training methodology is impractical.

基于查询的机制

MTTR

ReferFormer

然而,它们都是端到端的框架,它们使用图像级分割来执行R - VOS任务。

本文的模型

统一框架可充分挖掘视频级视觉语言信息,实现低级时空聚合

Audio-visual video object segmentation (AV-VOS)”

受近年来多模态研究(Zhang et al. 2023a; Gao et al. 2023; 林毅夫等 2023; Wang et al. 2023; 郭庆旺等 2023; Han et al. 2015b, a)的启发下, AV-VOS方法被成功引入并用于从给定的声音信号中估计个体像素的位置信息

早期有关视听视频对象分割的研究相对较少。该研究团队于近期引入了相应的数据集。

这一研究的主要创新点在于采用了最新的视觉基础模型(基里洛夫等(2023);张等(2023c)),以实现对音视频数据的高度分割

然而,它们都缺乏多模态信息之间的时间对齐。

研究方法:

整体框架

在这里插入图片描述

开发出了一种综合性的Transformer模型用于解决多模态输入中的视频对象分割问题

提出了MTA模块和MTI模块分别用于低层多尺度聚合和高层多目标交互

以DETR为基础构建了一个基础架构,并包含视觉主体网络、编码器与解码器等核心组件,在该架构下设计出了两个关键组件用于时间多模态交互系统

Feature Backbone

给定一对输入视频-文本或音频数据,在后续步骤中将首先从视频片段中提取 T 帧样本;随后,在视频片段中提取 T 帧样本的同时,则会通过视觉骨干网络从视频片段中提取图像特征;与此同时,在预训练模型的基础上分别利用预训练的文本或音频骨干网络获取相应的多模态表示;最后将上述两种类型的特征进行融合处理以实现目标任务

使用 ResNet或Swin Transformer作为视觉模块,并以第二、三及第四个特征层级为基础提取多尺度视觉特征

使用 ResNet 或 Swin Transformer 作为视觉模块,并以第二、三及第四个特征层级为基础提取多尺度视觉特征

此外,在文本参考方面,我们采用了现成的语言模型 RoBERTa(Liu 等人,2019 年)来对语言嵌入标记进行编码处理。

对于音频参考样本,在第一步中使用短时傅里叶转换将原始信号转换为频谱图表示;随后将该频谱图输入到预训练的VGGish模型(Hershey等学者, 2017)中进行特征提取。

文本/音频编码后,采用线性投影层将多模态特征维度与视觉特征对齐。

值得指出的是,在这项研究的基础上(Wu等人, 2022年),我们采用了早期融合模块,并将其作为神经网络模型的基础架构;在此过程中, 我们整合了基础的文本与音频信息到视觉特征提取过程中

Liang, C., Wu, Y., Zhou, T., Wang, W., Yang, Z., Wei, Y., and Yang, Y. (2021). Re-examining cross-modal interactions from a top-down viewpoint to enhance video object segmentation. arXiv preprint arXiv:2106.01061.

“MTA Module”

多尺度时间聚合模块

输入:视频特征/文本特征、语音特征

输出值作为查询

“Visual Encoder-decoder Transformer”

不依赖帧的方式处理,专注于单帧内的特征融合

编码器:采用vanilla self-attention block编码多尺度视觉特征

基本自注意力模块是Transformer架构中的一个关键组成部分。它能够使模型在处理各种序列数据(包括文本和图像)时考虑到各元素间的相互作用。相比之下,在诸如自然语言处理和计算机视觉之类的任务领域中,在引入这一机制后相比传统的RNN及其变体LSTM已经展现出显著的优势。接下来我会深入探讨其构成要素及其运作机制

组件

一个vanilla self-attention block主要包含以下几个组件:

1. Self-Attention Mechanism :核心组件,用于计算序列内各元素之间的关系。

Multi-Head Attention :该系统将输入划分为若干个子块(head),然后每个子块分别执行自注意力机制运算。最后将各子块的输出连接起来以便信息的有效传递。这种设计使模型能够从多维度的信息源中提取特征并完成复杂任务。

3. Position-wise Feed-Forward Networks 是一种将 multi-head attention 输出进行进一步处理的全连接网络。它们对每个位置均采用相同的操作机制,并使不同元素各自独立。

Add & Norm:包含残差连接(Residual Connection)和层归一化(Layer Normalization),用于优化梯度传递,并有助于提升深层网络的学习能力。

工作原理

输入表示:首先由输入序列通过嵌入层转换为固定维度的向量表示,并加入位置编码(Position Encoding)以整合序列中元素的位置信息。

2. Self-Attention:通过计算序列中各元素与其他所有元素之间的相互关系来获取全局上下文信息。具体而言,在输入向量表示的基础上应用三个加权矩阵分别生成Query(Q)、Key(K)、Value(V)三种向量。将Q与K进行点积运算后得到一个注意力分数矩阵,并对这个分数矩阵应用Softmax函数进行归一化处理。最后通过将归一化后的分数矩阵与对应的Value向量相乘从而生成加权后的输出结果。

3. Multi-Head Attention:将Q、K、V划分为若干个子块,在各自的处理路径上执行自注意力计算操作;这种设计使得模型能够在不同维度下提取特征并增强表示能力。将各子块的输出结果经过拼接后通过全连接层进一步融合以生成最终的特征向量

4. Position-wise Feed-Forward Networks:随后是对multi-head attention输出的两层全连接网络进行处理,并经过进一步非线性变换。

该过程在Transformer架构中会被重复执行多个周期(相当于多个自注意力机制并行),从而形成深度结构。借助这种方式,在Transformer架构下能够有效地处理序列数据。无论是跨越长距离的数据依赖关系还是复杂的模式关联性都能被捕捉到。从而在各项实际应用任务中展现出卓越的能力和效果。

key\value:编码后的视觉特征

MTA模块所输出的referring在改进措施上主要集中在查询领域。值得注意的是,在DETR中采用了随机初始化的方式进行查询操作;而当前这一部分属于MTA模块内部条件拆分后的内容,并整合了来自多个相关模块的知识信息

视觉解码器:目标查询获取了大量实例数据,并为最终分割提供了可靠的支持

(有点错误,可能需要更改)

“MTI Module”

视觉transformer后,使用MTI模块进行对象间的交互1

MTI编码器:通信同一对象在不同视图(帧)之间的时间特征

MTI解码器:将信息提取到一组视频查询表示中,用于关联跨帧的对象

Heo et al., 2022. Vita: A video-based approach for instance segmentation task via object token association. arXiv preprint arXiv:2206.04403.

“Segmentation Head and Loss Function”

分割头:bounding box head、classification head、mask head

使用匈牙利匹配从MUTR的预测中找到最佳的分配?

The authors Carion et al. presented a comprehensive study on end-to-end object detection techniques in their work titled "End-to-end object detection with transformers" at the 16th European Conference on Computer Vision (ECCV) held in Glasgow, UK during August 23–28, 2020. The research was published in Volume I of the conference proceedings as part of the Springer series under the same volume number (16), covering pages 213 to 229.

损失函数

在MUTR中对三个损失进行了评估,并包含基于目标序列预测的focal loss(Lin et al. 2017)。

预测实例边界框上的Lbox和预测对象掩码上的Lmask。

其中,Lbox是L1损失和GIoU损失( Rezatofighi等2019)的组合

Lmask是Dice (米莱塔里、Navab和Ahmadi 2016)和“binary focal loss” 的和。

整体损失计算为:

在这里插入图片描述

MTA多尺度时序融合模块

作用:低层次的时序聚合——>促进多模态的多帧视频之间的融合

生成一组包含多模态知识的对象查询,用于后续的transformer decoder

在这里插入图片描述

针对多层次的时间聚合机制,我们开发了一个MTA模块,并从中提取具备多模态知识的token,并将其作为Transformer解码过程中的输入查询。

“Multi-scale Temporal Transform”

具体操作:

1、使用多尺度特征上的线性投射将他们变换到相同的维度

将2、3、4层使用1 1卷积变换、在第4层上额外使用3*3的卷积

在这里插入图片描述

2、每一层的特征按照帧拼接到一起得到投射的特征

在这里插入图片描述

F_i^v_j代表第i个尺度下的第j帧投影特征;其中{ F_i^v }_{i=2}表示经过多尺度变换后的视觉特征。随后, 我们将提取得到的多模态时间序列特征依次作为后续交叉注意力机制中的关键码和值输入处理

3、

Multi-model Cross-attention

此外,在时间序列视觉建模中采用了基于多模态标记的顺序交叉注意力机制,并通过该机制系统地提取不同图像尺度的时间视觉线索。

我们设计了一个包含4个交叉注意力块的系统架构,在各个模块中为各个尺度单独配置了一套独特的关注机制以实现对多维度时间序列数据的精细建模。在每个注意力块中,基于文本或音频信息生成的语义表示被设定为主查询项的同时,在同一层次上还并行地维护着多个由多维度视觉信息生成的候选键和值集合

在这里插入图片描述

其中Block代表MTA模块中的顺序交叉注意力块,Ff用于生成包含多模态信息的多模态token

目前使用的公式可能存在不足之处,在计算过程中按照当前的计算方式应当是与每次运算相关联而非与FR进行交叉注意力交互。

之后,简单重复Ff的class tokenT × N次,其中T为帧数,N为查询数?

在之前的内容中已经介绍了Decoder机制,在这一过程中每个时间步将与前一个时间步中的Encoder生成的特征进行注意力机制计算,并且此处采用Referring机制进行查询操作。

将它们作为初始化的查询输入到视觉transformer中进行逐帧解码

通过MTA模块实现预设初始化的输入查询能够捕获多层次特征信息以及时间维度的数据

ps:

这里的query corresponds to referring, and it is implemented via the MTA module. It utilizes a more sophisticated encoding mechanism that incorporates multi-scale knowledge (the fusion of different feature maps) and temporal relationships between video frames (the synchronization of different frame sequences).

MTI

多目标的时间级联互动方案中包含多个目标的时间关联机制。通过引入MTI模块,在帧间实现了对象级别的相互作用,并建立了一组基于视频级别的人脸特征表示模型。这些特征被设计用于跨帧层面的对象关联与识别任务中。

由于'visual transformer'采用了基于帧独立的方式进行图像处理操作,在这一架构下各帧之间无法实现相互的信息交互与融合,在这种情况下我们特意设计并引入了多对象时序交互模块来解决这一问题

MTI Encoder

通过Transformer解码器提取每一帧的目标查询输出P作为输入传递给MTI编码器。该编码器由自注意力机制构成,负责跨帧信息交互,并配备了一个用于特征转换的前馈网络模块

为了实现更高效率的自注意力机制,在自注意力层中我们采用了基于线性计算复杂度的移位窗口注意力

在这一部分中描述了各帧之间的交互行为,并运用滑动窗口机制作为注意力计算的核心手段(swim-transformer?)

代码解释:

复制代码
    def _window_attn(self, frame_query, attn_mask, layer_idx):
        T, fQ, LB, C = frame_query.shape
        # LBN, WTfQ = attn_mask.shape
    
        W = self.window_size
        Nw = T // W
    
        frame_query = frame_query.view(Nw, W, fQ, LB, C)
        frame_query = frame_query.permute(1,2,3,0,4).reshape(W*fQ, LB*Nw, C)
    
        frame_query = self.enc_self_attn[layer_idx](frame_query, tgt_key_padding_mask=attn_mask)
        frame_query = self.enc_ffn[layer_idx](frame_query)
        frame_query = frame_query.reshape(W, fQ, LB, Nw, C).permute(3,0,1,2,4).reshape(T, fQ, LB, C)
    
        return frame_query
    
    def _shift_window_attn(self, frame_query, attn_mask, layer_idx):
        T, fQ, LB, C = frame_query.shape
        # LBNH, WfQ, WfQ = attn_mask.shape
    
        W = self.window_size
        Nw = T // W
        half_W = int(ceil(W / 2))
    
        frame_query = torch.roll(frame_query, half_W, 0)
        frame_query = frame_query.view(Nw, W, fQ, LB, C)
        frame_query = frame_query.permute(1,2,3,0,4).reshape(W*fQ, LB*Nw, C)
    
        frame_query = self.enc_self_attn[layer_idx](frame_query, tgt_mask=attn_mask)
        frame_query = self.enc_ffn[layer_idx](frame_query)
        frame_query = frame_query.reshape(W, fQ, LB, Nw, C).permute(3,0,1,2,4).reshape(T, fQ, LB, C)
    
        frame_query = torch.roll(frame_query, -half_W, 0)
    
        return frame_query
    ```

该方法旨在对输入帧进行编码阶段中的窗口化注意力机制的应用,并通过将序列划分为多个区间段,在每个区间段上分别施加注意力机制(可选择地移动以覆盖区间间的边界区域)。这使得模型不仅能够有效提取各片段特征间的关系信息,并且能够更有效地捕捉到局部依存性。该方法不仅提升了计算效率还能显著提升准确性

MTI Decoder

该系统采用基于MTI编码器的技术基础,并建立一组用于关联对象的视频查询Q集合。系统通过将该系统的输出信号作为加密密钥与数据值,并将其与视频查询Q一并输入至MTI解码器进行视频重建过程。

这里的**“video-wise queries Q”** ** 是什么**

初始化和表示

:查询

Q在模型初始化过程中被随机生成,并通过self.query_embed和/或self.query_feat实现这一过程;这些查询向量均具有与输入特征相同的维度,并反映了模型试图在视频序列中追踪并识别的对象或特征的抽象表达。

解码器中的使用

:在解码器中,视频级别查询

Query(Q)与编码器生成的keyvalue通过交叉注意力机制进行交互,在交叉注意力层之后,在自注意力机制中对这些查询进行进一步处理。这种设计使得模型能够更好地理解和建模视频中多个物体之间的相互关系。随后,在前馈网络层对这些信息进行进一步加工以提升表示能力,并为后续任务(如目标检测、跟踪等)提供更精确的支持

跨帧关联 :通过解码器的处理机制,在学习过程中能够建立同一对象或特征在不同帧之间的联系。即使这些对象或特征的空间位置与形态特征发生动态变化,在视频序列中的关系依然能够被有效捕捉与建模。这对于全面理解和分析动态场景具有重要意义。

MTI解码器由交叉注意力层、自注意力层和前馈网络层组成。

其表达式为Q'= MTI\_Decoder(Q, P', P')(5)。其中,MTI_Decoder代表用于解码的过程;Q'是该译码器处理后的输出结果。

借助这种途径,在提出MTI模块的过程中实现了高阶时间整合,并加强了同一帧间物体间的关联与互动;这从而进一步地提升了精确分割的效果。

ps:因为帧之间计算了自注意力

最后查询Q通过交叉注意力和自注意力不断学习成为了Q’

在最终分割阶段中,并非直接通过多级特征图与学习得到的视频级别的特征进行比较分析以获得各帧间的mask值而是借助多层次的特征图与从视频级别的特征中提取出各帧间的mask矩阵并通过此完成视频间的分割任务

“Joint Training for Multi-modality”

基于多模态技术的统一VOS框架MUTR具备识别视频对象中的文字或语音内容的能力。

实验:

在RVOS数据集上
在AV-VOS数据集上
在联合数据集上
定性分析

消融实验:

不同部件之间的消融实验

讨论:


●总结

  1. 通用性:基于多模态数据源整合语言与音频提示信息的技术系统性方法
  2. 每一帧之间的多模态交互与各帧间的动态协作关系及时序关联机制

创新点:

1、提出一个统一的架构MUTR,用于处理多模态(语言和音频)的视频对象分割

开发了两个以注意力机制为基础的模块MTA和MTI

3、在两个任务数据集上都取得了最先进结果

局限性:

改进方法:

">后期回顾:

这种方法依赖于从关键帧中检测的目标掩膜,并通过视觉定位模型确定待分割的目标。(Yan 等, 2023, p. 2) 另一种方法依赖于从关键帧中检测的目标掩膜,并利用视觉定位模型确定待分割对象。

全部评论 (0)

还没有任何评论哟~