COD论文笔记VSCode: General Visual Salient and Camouflaged Object Detection with 2D Prompt Learning
论文概要
这篇论文提出了一种通用名为VSCode的模型, 用于处理显著目标检测(SOD)和伪装目标检测(COD)任务. 该模型采用了基于编码器-解码器架构的新颖2D提示学习方法, 通过引入2D提示来学习领域知识与任务特定信息, 并使用提示区分损失优化了该模型. VSCode在多个任务与数据集上表现出色, 并展示了对未见任务的零样本泛化能力.
主要内容
引言 :
*SOD与COD均属于二元映射任务范畴,在模式识别方面存在共性特征与独特识别标志。
*
当前研究多倾向于构建专门针对特定任务的复杂模型架构,在这种情况下可能会导致资源浪费以及非最优解的出现。
*
VSCode系统作为一个通用框架,在其设计中采用了VST作为基础模块,并在此架构下增添了二维提示机制以提升领域知识与任务相关知识的学习能力。
方法 :
-
基础模型 :采用VST作为基础模型以提取或识别SOD与COD任务中的共性特征。
- 领域特定提示 :在编码器中设计并引入四种领域特异提示(RGB通道、深度信息、热图及光流数据),以便凸显不同领域的独特性。
- 任务特定提示 :分别在编码器与解码器中加入任务特异提示机制,在SOD与COD两个子任务中独立学习各自特有的特征表示。
- 提示区分损失 :提出一种基于提示区分损失的方法或机制,在分离领域特异知识与任务特异知识方面展现出良好的效果。
实验 :
-
该团队进行了系统性实验分析,并对VSCode在多维度任务与数据集上的性能表现进行了深入探讨。
-
通过消融实验对不同设计组件进行系统性地评估后发现,2D提示及其区分损失的有效性被成功证明。
结果和讨论 :
- 在经过多方面的测试与评估后发现, VSCode在26个数据集上的性能均显著优于当前最先进的解决方案。
- 通过一系列实验验证, 该系统成功展现了其对未探索任务(例如RGB-D COD)的零样本泛化能力。
动机、贡献、创新点
论文动机
目前的显著目标检测(SOD)与伪装目标检测(COD)方法通常采用繁琐且单一任务的复杂模型架构。此外,在针对每个独立的任务构建专门的模型时会导致大量资源消耗,并可能引发过度拟合问题而导致泛化能力不足。因此,在现有技术中缺乏一种能够统一处理多个SOD与COD任务的通用架构以实现最大化利用所有训练数据的目的,并有效降低过拟合风险的同时提升整体系统的泛化性能。
论文贡献
- 通用模型VSCode :开发出了首个支持多模态SOD与COD任务处理能力的通用模型VSCode。
- 基础分割模型 :通过整合不同任务间的共性特征,并采用2D提示技术来有效学习领域特性及任务特征。
- 提示区分损失 :提出了一种新的提示区分损失方法,在显著提升了2D提示与基础模型特性学习能力的同时实现了更好的分类效果。
- 性能超越现有方法 :该系统在包含26个数据集在内的多个典型应用场景中展现出卓越的性能优势,在六项关键任务上均超过了现有所有方法,并成功实现了对未曾见过的新类型任务实现零样本学习的能力展示。
创新点
- 新提出一种基于领域与任务特定提示的2D提示学习方法,在SOD与COD两大类的任务中首次实现其应用。
- 为了解决这一问题,在编码器-解码器架构中引入了一种新的损失函数——提示区分损失(Prompt Distillation Loss),旨在最小化同类型提示之间的相关性。
- 开发出一种高效而简洁的架构设计策略,在联合训练多个目标领域的模型时显著提升了性能。
- 该工具具备强大的零样本泛化能力,并能够灵活地结合不同领域的提示来处理未知的任务。
借助这些创新手段,VSCode不仅增强了SOD和COD任务的性能表现,并且凸显了其在处理多模态任务方面的能力。
Methodology 概要
方法论概要
该论文开发了一种命名为VSCode的一般性模型,在显著目标检测(SOD)与伪装目标检测(COD)任务中展现出卓越的效果。具体而言,在该领域中该通用模型旨在解决上述两类任务的关键问题。
基础模型 :
-
基于一种命名为VST(视觉显著性转换器)的模型构建基础框架。这种架构采用编码器-解码器模式来处理图像数据,并提取图像中各区域间的相互关系。
-
VST架构具备同时处理多种任务的能力,并可通过共享参数机制实现各任务间的共性学习。
领域特定提示 :
-
论文提出了一种专门针对不同领域的提示机制(包括RGB颜色信息、深度数据、热图以及光流特征),这些机制有助于模型更加高效地理解和分析来自各自领域的独特信息。
-
在编码器的不同层中,这些提示会被整合到图像特征中去,在此过程中能够更有效地实现跨领域特性的区分与提取。
任务特定提示 :
-
以区分显式目标检测与隐式目标检测为研究重点,
-
该模型在编码器与解码器两端均引入了与任务相关的指示符。
-
这些指示符有助于使模型识别与任务相关的特征(例如属于显式的目标或被隐藏的目标)。
-
从而使得解码器能够准确重构出各目标的具体边界及其覆盖范围。
提示区分损失 :
-
该研究旨在探索如何使两种类型的提示(即领域特定和任务特定)能够在各自的学习过程中获取独特的知识。
-
这种损失函数通过降低它们之间的相似度,在一定程度上实现了这一目标,并且使得每种提示能够专注于其对应的领域或任务信息。
2D提示学习架构 :
在整个模型架构中,领域特定提示与任务特定提示通过层次化方式融合使用,在低层阶段辅助提取边缘、纹理等基础特征,在高层阶段则整合更高阶的语义表征(如目标形状、空间关系等)。
编码器逐步整合领域特定提示序列信息,并通过解码器借助任务特定提示对目标进行精细重建,在此过程中实现了对不同复杂场景的支持能力。
该机制设计旨在使模型具备应对多种SOD(物体感知)与COD(场景理解)任务的能力。
总结
VSCode模型通过引入领域特定提示以及任务特定提示,并利用提示区分损失,在单一模型中成功实现了多个显著的目标检测与伪装目标检测的任务处理能力。该方法不仅提升了模型性能,并且证明了其对未见任务的泛化能力。
作者使用 Visual saliency transformer ICCV 2021 作为baseline model
模型配图

图3. VSCode模型的整体框架
概述
这张图呈现了VSCode模型的整体架构设计,并对二维提示学习方法给予了重点关注。该系统以VST为基底构建了架构,在编码层运用了Swin Transformer技术来实现领域与任务相关的提示学习过程。通过共享的架构组件以及配套的转换机制,在显著目标检测与伪装目标检测两大任务中实现了完整的处理流程
详细解释
编码器部分
输入图像 :
* 输入的图像可以是RGB图像、深度图、热图或光流图,代表了不同的领域。
领域特定提示 (Domain-specific Prompts) :
在Swin Transformer编码器层(LeL_e)的相关位置插入了领域特定的提示信息。这些提示有助于模型学习相关领域的编码器特征。图中通过不同颜色与符号组合表示各个领域的提示信息,并举例来说:D代表深度、T代表热图、F代表光流、R代表RGB值等。
任务特定提示 (Task-specific Prompts) :
-
在编码器层中增加了任务特定提示以促进模型学习任务相关的特征。
- 图形上这些提示分别以不同的符号表示。
共享编码器层 :
特征被共享编码器层基于领域和任务特定提示进行后续处理并融合
转换器部分
- 转换器 (Convertor) :
- 用于多模态特征融合,并实现不同领域特征的有效整合。
- 在图示中以灰色方框表示,并连接编码器与解码器。
解码器部分
解码器层 (Decoder Layers) :
-
解码器层(LdL_d)不仅接收编码器输出的所有特征信息,并且根据任务指定的指示完成解码过程。
-
在该过程中,在每一步迭代中都会将这些指定指示作为附加信息加入到图像特征令牌中,并最终完成相应的解码运算。
任务特定提示 (Task-specific Prompts) :
-
在解码器层中,并非仅限于使用特定的任务提示(SdS_d和CdC_d)来辨别显著的目标与伪装的目标。
-
图中揭示出了这些特定的提示在解码器层中的具体位置。
轮廓和显著性令牌 (Contour and Saliency Tokens) :
-
此外, 解码器通过轮廓(token)与显着性(token)来详细重建特定区域的边缘.
-
图中以黄色与绿色的小方块作为标记符号表示这些token.
连接操作 (Concatenate Operation) :
* 用圆圈C表示,指示了如何在解码器中将提示和特征连接起来。
输出
- 输出结果 :
- 最终输出的是显著目标检测和伪装目标检测的结果,分别展示了检测到的显著目标和伪装目标的轮廓。
总结
图3对VSCode模型的整体架构进行了详细阐述,并突出了二维提示学习在编码器与解码器中的关键作用。基于领域特定提示以及任务特定提示的方法下, 该模型成功地实现了对不同领域的有效识别以及对不同任务的精准识别, 最终达到了高效显著的目标检测与伪装目标检测的效果。
3.1 基础模型 (Foundation Model)
3.1 基础模型 (Foundation Model)
概述
为了更全面地整合显著的目标检测(SOD)与伪装目标检测(COD)任务的共性特征与需求点,本文采用了Visual Saliency Transformer(VST)作为基础架构模型.该模型最初设计用于RGB及其扩展形式RGB-D的目标检测,其核心模块由三个关键组件构成:包括基于变换器的编码模块、转换机制以及多任务解码架构.
具体内容
变换器编码器 (Transformer Encoder) :
-
变换器编码器设计旨在捕获图像特征中的长期依赖关系。
-
在编码器中每一个块中,均包含由图像特征序列构成的部分;其长度与通道数量分别表示为lil_i与cic_i;其中i表示该编码器各个块的索引,并取值范围限定为[0,1,2,3]。
变换器转换器 (Transformer Convertor) :
-
该转换器旨在融合RGB与深度特征的互补特性,在基于交叉注意力的架构下实现RGB-D分割任务;同时采用自注意力机制完成纯RGB分割目标。
- 该机制不仅促进多模态特征的有效结合,并且显著提升了模型的特征表达能力。
多任务变换器解码器 (Multi-task Transformer Decoder) :
解码器由一系列自注意力层构成,在生成显著性图与边界图方面具有重要功能。
在解码器架构中采用显著性标记符、边界标记符以及解码器特征(以fDjfD_j表示),其中每个j值代表当前处理的编码块索引(取值范围限定为[2,1,0]),而d参数固定设置为384。
该设计使得VST系统能够灵活应对多种多模态任务及COD处理需求,并无需对模型架构进行额外重构即可实现通用化应用目标。
结构改进
为了获得更好的效果和更适合的结构,本文对VST进行了以下改进:
选用Swin Transformer作为骨干 :
本文基于Swin Transformer所具有的高效性能与卓越能力,在研究领域中选择了该方法作为关键基础网络架构。
Swin Transformer凭借其独特的层级结构模块设计,在图像处理方面展现了显著的优势与潜力。
统一结构 :
-
为了遵循RGB任务与其他多模态任务的统一架构,在VST中采用标准变换器层作为RGB转换器。
-
在处理多模态场景时,在VST中通过融合补充模态特征与RGB特征以实现通道维度上的整合,并利用多层感知器(MLP)将整合后的数据映射至相同数量的通道。
引入VST++的扩展 :
* 引入VST++的一些扩展,特别是令牌监督预测损失,以增强模型的监督效果。
总结
本节深入阐述了基于VST的VSCode模型及其相关组件。该模型包含三种关键组件:变换器编码器、转换器转换器以及多任务解码器,并分析了它们的设计原理与功能特点。此外,还介绍了为了优化模型性能所采取的具体改进措施。这些优化措施显著提升了该模型在多模态SOD与COD任务处理上的效率,并验证了其优异的表现以及广泛的适用性。
3.2 领域特定提示 (Domain-specific Prompt)
3.2 领域特定提示 (Domain-specific Prompt)
概述
该编码器模块在VSCode模型中专注于构建多层次特征表示体系,在较低层级模块中专门负责提取基础特征如边缘、颜色和纹理等关键信息。值得注意的是,在各个领域(包括RGB空间、深度数据以及热图等多种感知模式)之间存在显著差异性表现。而高层级特征则聚焦于从模态数据中提取更为抽象且具有语义意义的信息,在各类下游任务处理过程中发挥着不可或缺的关键作用。基于此,在编码器设计中特意融入了各领域特有的提示机制以促进多模态信息的有效融合与表达。
具体内容
低层次特征提取 :
-
编码器的基础层主要专注于提取图像中的基础层特征, 包括边缘、色调和纹理信息。
-
在不同领域中, 特征的表现形式存在显著差异; 例如深度图通常采用灰度显示, 而热图则呈现更为广泛的颜色范围。
高层次语义特征捕捉 :
编码器的高级别特征则专注于识别语义信息的关键要素,在这一层面上的能力对于各类任务都具有重要意义。
高级别特征有助于模型识别图像中的复杂语义内容,并显著提升模型在目标检测和图像分割方面的性能。
领域特定提示的设计 :
-
在编码器块 ii 的每个模块中加入领域特定提示 pdip_{d}^{i} 的概念,并开发了四种相关性指示符。
-
这些指标有助于模型有效地区分类别间的显著差异,并显著地提高了模型在处理多种模态数据时的能力。
具体实现 :
-
从Swin Transformer编码器中的特定区域提取图像特征 f(E) i = f_E^i ,通过应用窗格注意力机制将其划分为窗格特征求 f(E) i,w = f_E^{i,w} 。这里 MM 表示窗格大小,在计算过程中 li/M ² 的值即为窗格数量。
-
复制提示 p_d^i 并将其附加到每个窗格中的补丁特征令牌上 ,以便进行自注意力计算。
公式表示 :
采用MLP网络结构与滑动窗口注意力机制(包括常规滑动窗口注意力机制与移位滑动窗口注意力机制)协同作用,在信息更新步骤中完成特征提取过程。
其中,W-MSA与SW-MSA分别对应具有常规滑动窗口配置与移位滑动窗口配置的多头自注意模块。
更新与重新组装 :
- 从每个窗口中提取最新的提示信息 p_{d}^{i+1}, 并通过计算其平均值生成新的提示 p_{d}^{i+1}.
- 将输出窗口特征 f_{E}^{i,w} 整合后传递给后续编码器块.
总结
领域特定提示通过在编码器的各个块中加入针对RGB、深度、热图和光流的独特提示信息,在各层之间显著地凸显了各类数据的独特性与差异性。此外,在提升模型对各类数据特征感知能力的同时,并非仅局限于这一层面的能力提升,在此基础上还巧妙地结合使用窗口注意力机制以及自注意力模块来进一步优化特征的表现力与处理效果。这些改进措施为模型在多模态任务中的卓越性能奠定了基础
