Advertisement

SOC: Semantic-Assisted Object Cluster forReferring Video Object Segmentation

阅读量:

|论文地址:[[2305.17011] SOC: Semantic-Assisted Object Cluster for Referring Video Object Segmentation

icon-default.png?t=O83A
https://arxiv.org/abs/2305.17011](https://arxiv.org/abs/2305.17011 "2305.17011 SOC: Semantic-Assisted Object Cluster for Referring Video Object Segmentation")

一、前言

视觉-语言对齐(Visual-Linguistic Alignment): 机器能够理解并处理图像与文本之间的关联,具体方法包括对比学习、自回归模型以及注意力机制等

Referring Image Segmentation(参考图像分割RIS): 在静止画面中确定基于文本描述的目标位置。

Referring Video Object Segmentation(R-VOS参考视频对象分割): 该方法旨在对动态视频中的内容进行分割。

二、简介

该论文探讨了指代视频对象分割(RVOS)任务,并通过强化视频级视觉-语言对齐来改善性能。现有技术通常将RVOS建模为序列预测问题,并对每一帧分别实施多模态交互与分割。然而缺乏全局视角导致难以充分利用帧间关联并准确捕捉对象的时序变化描述。针对上述挑战,本研究提出了一种语义辅助的对象聚类方法( SOC ),通过整合视频内容与文本指导信息来实现一致的时序建模以及跨模态对齐。

该方法通过将一组合法对象嵌入与语言标记建立关联的方式,在跨模态特征与时间步信息之间实现了良好的联合学习效果。具体而言,在整合视频内容并结合文本指导的基础上,默认情况下采用多模态对比监督机制来辅助构建视频级别的良好对齐性联合空间。该系统不仅关注于单帧内的对象信息提取及其相互关系处理,并且在模型训练阶段同时考虑了帧间的时间顺序关系以及相应的文本描述因素,在此基础上实现了更为精确的对象分割效果

三、引入

3.1 发展历程

Gavrilyuk团队首次开发了RVOS(Reference Video Object Segmentation)任务。URVOS构建了一个大规模RVOS基准数据集并提供了一个统一的技术框架。通过注意力机制与掩码传播技术相结合的方法来提升任务复杂度与适用范围。ACAN提出了一种不对称交叉注意力机制以处理复杂的视觉语言关系。旨在简化工作流程并提高位置表示准确性的是PRPE模型。PRPE研究了一种基于极坐标系的位置编码新方案以优化物体定位精度。传统的系统架构往往依赖于复杂的处理管道以实现多模态特征融合。MTTR与ReferFormer系统通过端到端查询驱动的方式从多模态特征中提取并识别目标对象信息。

|MTTR论文地址 [https://arxiv.org/pdf/2111.14821v2

icon-default.png?t=O83A

ReferFormer的具体内容链接 [arxiv.org/pdf/2201.00487]

icon-default.png?t=O83A
https://arxiv.org/pdf/2201.00487](https://arxiv.org/pdf/2201.00487 "arxiv.org/pdf/2201.00487")

3.2 发现问题

早期的方法基于自下而上自上而下 的框架分别处理单个帧的信息提取过程;然而近期提出了一种新型方法,在Transformer架构中整合了跨模态交互与像素级理解机制。该方法将RVOS任务建模为一个序列预测问题,并取得了显著的效果;尽管如此,在时间关联性这一方面仍存在不足:具体而言,在现有方案中对每一帧都单独进行跨模态交互与分割操作;这种设计未能从视频层面实现多模态信息的整合;因此这种方案可能会导致目标物体在不同时间点上的感知能力下降;因为语言描述能够有效传达出物体随时间演变的过程

MTTR和ReferFormer通过基于查询机制的端到端架构解析多模态特征,并展现出卓越的效果。然而,在解码阶段,早期方法仅聚焦于局部时空信息,并忽视了跨越不同帧间的时空关系。

3.3 提出方案

为了缓解上述问题并有效地将视频与文本对齐,我们提出了:

我们提出了一种名为SOC的RVOS框架旨在统一时间建模与跨模态对齐,在该框架中设置了语义集成模块(Semantic Integration Module, SIM),以有效地整合前后帧信息以及单帧内部数据并实现了视频级别的多模态理解

提出了视觉语言对比损失这一概念,并通过将语义监督策略应用于视频级别的对象表示学习中,最终实现了各模态数据在统一空间中的良好对齐效果

图a是现阶段方法,图b是论文提出的方法。

四、框架

五、方法

5.1 Visual and Linguistic Encoding

Visual Encoder: 作为输入使用视频片段,并通过 video Swin Transformer 等时空主干提取层次化的视觉特征表示

Visual Encoder: 该系统采用基于Transformer架构的语言编码器模块来处理输入文本表达式,并将其转换为词嵌入与句嵌插入。其中单词嵌插入录了细微的语义信息,而句子嵌插入反映了所指对象的本质特征。

5.2 MMF模块(Two Stream Multi-Modal Fusion)

通过分别对视频片段及文本表达进行视觉嵌入与语言嵌入编码,并设计了一个称为MMF的多模态融合机制来实现跨模态特征的初步对齐

(L2V)流程的目标是通过强调每一帧中的具体目标区域来突出显示其特征,并有效降低背景噪声的影响。该流程利用语言信息作为指引,并通过处理潜在的视觉重叠来提升准确性。同时开发了(V2L)流程,在图像内容的基础上更新并嵌入文本信息。这一机制有助于减少由于描述不明确而导致的理解歧义。

具体而言,在计算过程中首先评估所有视觉区域与文本查询之间的相关性,并根据从视觉特征中提取出的重要信息分配相应的权重系数。随后,在完成这些计算后将重要性和相关性的结果进行综合处理以重构文本嵌入空间。这种L2V到V2L的融合机制主要依赖于多头交叉注意机制。

具体框架:

5.3 Semantic Integration Module

Frame-Level Content Aggregation

识别视频片段内的局部关联性,并深入解析嵌入空间中的多模态互动模式。随后,在模型架构中采用变形Transformer编码器层来提取视频片段间的局部关联性,并深入解析嵌入空间中的多模态互动模式。接着,在网络结构中加入一组可学习的对象查询模块,在此过程中交叉注意力机制被用来充分融合各层次特征信息以提取不同对象的表示

系统性地引入一组可学习的对象查询以实现图像内容的聚合,并着重突出潜在的目标对象。这些经过优化的对象查询能够通过Transformer解码器的交叉注意力机制与视觉特征进行充分交互。在此过程中,经过进一步提取不同类型的对象表示后,这些中间结果最终被转换为具体的实例嵌入向量。

Video-Level Object Cluster

实例常见于不同帧之间由于姿态与位置的变化有时会受到遮挡情况的影响以往的方法仅对每个独立帧进行实例建模因而未能充分考虑物体在时空中的动态联系这种缺少帧间交互的信息导致现有技术在描述物体时空关系时难以发挥最佳效能

在完成基于帧级的内容聚合后生成实例嵌入的基础上进行展平处理,在此基础上构建空间连接关系以实现跨帧互动。仅依赖时间维度上的自注意力机制存在不足。考虑到不同帧中对同一对象表征的一致性,在共享空间连接上下文中可能出现信息冗余现象这可能导致模型在识别视频片段中的具体实体时出现偏差

采用了Nv数量的视频级别的对象查询方案,并通过FS这一语言级别的句子初始化机制进行操作。从而有助于深化对对象描述的理解,并形成了一个融合视觉与语言表达的空间。

通过基于语言感知的视频查询系统与每帧的压缩实例信息之间的互动机制,在实现时间对象上下文的提取过程中,并将被引用的对象按照跨帧分组的方式进行处理后输出聚类后的视频级别的对象查询

5.4 Visual-Linguistic Contrastive Learning

构建文本指导嵌入的过程是将视觉到语言的最终阶段整合后的文本特征经过平均池化处理。

2.相似性计算:采用归一化点积相似度评估基于文本嵌入与视频级对象检索之间的相似性。

3. 抑制非目标区域响应 :沿对象查询轴进行softmax操作以增强目标区域的响应同时削弱非目标区域的响应。

4.评估对比损失 :利用矩阵运算评估对比损失 ,其中 ( yτ ) 被标记为与最佳预测轨迹一致的索引位置。

六、结论

通过对比实验图谱分析的结果来看,在论文研究中提出的方法能更有效地掌握时间动作用及变化的文本表征方式。而ReferFormer仅识别文本描述中涉及的具体框架类型中的元素,并未能真正理解和把握内容的本质。

全部评论 (0)

还没有任何评论哟~