Advertisement

Large Model Based Referring Camouflaged Object Detection

阅读量:

基于大型模型的参考伪装对象检测

参考伪装对象检测(Ref-COD) 是近期提出的一项创新性研究方向,在目标识别与视觉引用匹配方面具有重要意义。该研究的核心在于解决两个关键挑战:一是COD领域的特异感知能力;二是多模态参考图像的有效对齐技术。研究团队的主要动机是充分挖掘当前最先进的人工智能技术潜力,并通过类脑式的思维方式来解析并解决这一复杂问题。在知识传播过程中,“从简单到复杂”的认知规律体现了人类学习的本质特征——信息以循序渐进的方式构建认知体系。在本研究中,我们开发了一种基于多模态大语言模型的知识引导分割方法——MLKG(Multi-Level Knowledge Guided),这种方法能够通过多层次的知识体系组织与视觉模型协同工作,在相机成像与伪装场景解析方面展现出显著优势,并实现了文本引用与伪装图像之间的深度优化关联建立

(1)这是首次研究Ref-COD和COD的MLLM知识。

我们首次提出了一种基于整合MLLM知识的方法,并将其分解为感知目标与场景两大核心维度,并提出了一个多层次的知识引导方案。

(3)该方法基于Ref-COD基准展示了卓越的性能表现,并超越了许多强劲的对手。此外, 该方法得益于注入的知识储备, 在单模态COD数据集上实现了无样本泛化的能力。

REF-COD问题

模型在感知伪装场景中的复杂模式时面临着诸多挑战。即使人类的眼睛,在从伪装场景中识别具有伪装特性的物体时也并非易事(如图1所示)。当一个人接收到一个文本提示或参考资料时,在某种程度上可能会结合视觉以外的先验知识来解决这一问题(Ref-COD)。可以说这项任务超出了单纯的视觉感知范畴,在这种情况下我们很自然地会考虑向模型注入一些领域知识以增强其处理能力。

(2)通过引入文本引用机制,模型必须协调匹配伪装图像与相关文本描述的多模态关联.当文本引用过于简短且不够具体时,在模型层面这将构成一种挑战;此外,在未经充分预训练的情况下缺乏相关的上下文信息也会进一步加剧这种困难.例如,如果文本引用是一个类标签[bird],这在训练语料库中是常见存在的,因此这类概念对于该模型而言具有较高的可识别性.然而,当我们面对一个更具挑战性的情境时,如果参考对象是一个罕见物种[鸭嘴兽],即使在训练数据集以及现实世界中都极为罕见的情况下,该模型仍然无法获取相关信息.基于此限制性因素,我们将采用易于理解且丰富的自然语言来辅助Ref-COD系统解释并增强其对抽象文本参考的理解能力.这一改进措施带来了两个主要方面的提升:(a)自然语言能够为模型注入额外的知识储备; (b)同时能够提高该系统识别复杂跨模态输入的能力.

Thanks to the exceptional semantic understanding and ample knowledge of large language models (LLMs), within this study, we aim to

The project aims to initiate an initial exploration of Large Language (LL) expertise as a first step to address the aforementioned specific hurdles encountered by the Ref-COD framework, while simultaneously developing an interpretable solution.

缓解REF-COD特定任务挑战和实现一个具有可解释性的解决方案。

方法:

基于上述动机以及LM在复杂任务分解[24,51]上的成功实践的推动作用, 我们的思路是充分运用Mllm的语义智能与内在知识, 以类人方式解析此复杂任务.具体而言,我们将Ref-COD中的复杂逻辑拆解为两大核心视角, 依次感知伪装目标与场景.这将指导模型明确解决两个关键问题:其一是需识别什么特定物体;其二是需处理何种伪装场景.我们认为,有效解决这两个问题将显著提升该模型的可解释性.在此研究中,我们提出一种基于多层知识引导多模态的方法命名为MLKG,其中来自流行的MLLM LLaVA-1.5 [29]的知识系统被系统地组织,以引导大型视觉模型SAM [23]逐步识别伪装目标与场景;同时实现文本参考与伪装图像深度对齐

问题:

和伪装评估的参考词如何设计。或者说类别标签。

SAM能修改用于伪装评估吗

目前看来都属于微调技术。其适用范围是否足以满足我的任务需求呢?这是因为这是一个被设计用来实现分类功能的任务模型。

用于分类如何调。

如果无法实现这一目标,则利用我的模型系统能否有效地整合现有文本与知识?具体是在注意力机制计算过程的哪个阶段进行?

公式:

基于给定的训练数据集X,在其中以N组伪装照片的形式呈现:X={Xi=(p_i, t_ref_i)}_{i=1}^N。每个伪装照片p_i ∈ ℝ³×H×W被赋予了一个对应的文本类别标签t_ref_i(其中H和W分别代表图像的高度和宽度)。在每张p_camo中的图像可能包含多个隐藏的目标物体;因此,在Ref-COD任务中,我们的目标是建立一个多模态映射关系M: M_i → M_seg_i,并输出一个二进制掩模M_seg_i ∈ {0,1}^{H×W}

文本类别标签 是可以自己设计的吧。

网络结构部分:

MLKG网络结构图

1.Visual Encoder 输入伪装图片,产生视觉表示,并传输到视觉编码器。

Visual Decoder 同时获取视觉编码器和知识注入器的图像特征以及领域相关的知识,并生成分割掩码M;该系统能够识别与参考目标相匹配的具体伪装靶标

  1. Knowledge Factory 由一种多模态的大型语言模型构成;它将目标参考 t-ref-i 转换为多层次的知识描述,并将其传递给知识编码器;这可能意味着存在某种机制来评估这些知识描述。

4.Knowledge Encoder 是一种文本编码机制,在自知识工厂获取多层次认知信息后,并对不同层次的知识分别转化为对应的向量表示;这些生成的相应的向量表示会被整合至知识注入模块进行后续处理,并最终被用于信息检索系统中;(生成相应的向量表示与视觉空间的特征向量进行融合以提升检索精度)

  1. KnowledgeInjector获取知识编码器输出的结果,并依次执行两个信号处理环节:a)筛选并整合来自知识编码器的多层级的知识信息;b)被筛选和整合的知识在与视觉解码器的表示空间进行多模态对齐后输入到视觉解码器。

采用端到端的方式来训练我们的管道,并将二进制交叉熵损失(BCE)连接至我们的视觉解码器。特别地,在构建视觉编码器与解码器时,默认使用大型视觉模型SAM [23] 的配置参数设置。为了实现知识编码功能,则利用CLIP提供的文本编码方案[43]作为知识编码模块。在后续章节中,我们将详细阐述我们的知识工厂以及注入机制的具体设计与实现过程,请参考第四章中的相关内容以获取更多技术细节

现在这种方式越来越智能化的模型,相当接近人类正常思考的方式。

凭借自身积累的知识去遇到新问题时, 通过所学知识结合观察分析得出结论. 评估工作是一个持续的过程.

那么考虑修改方式。

似乎不太行,除非SAM很好修改成我的网络那种输入和计算方式。

也许还可以直接将模型改为分类模型,并无需不必要的输入方式。给一个标签就可以,并不需要进一步探索。

现在这种方式越来越智能化的模型,相当接近人类正常思考的方式。

凭借自身后天获得的知识储备,遇到新问题时能够运用所学知识与观察分析结果进行推断。评估工作是一个持续的过程。

知识工厂:

可以引导模型清晰识别两类关键点:一类是它需要分离的具体目标;另一类是它处理的伪装类型。

还需解决若干问题,并需针对某种特定的对象(即特定类型的人工智能系统),处理何种类型的伪装场景以及(其伪装效果的好坏程度)是我们关注的重点。若直接告知该模型其仿真难度等级则显得不够科学;另一种可行的方式是在训练阶段给予该模型所需数据,在验证阶段则避免提供此类信息

对于Q1问题来说,在模型中必须具有明确的类别名称,并且必须具备学习与目标参考对象相匹配的具体类型物体形态特征或物理特性所需的知识;同时要避免考虑与背景相关的信息干扰。例如,在目标为生物的情况下,则以避免考虑其栖息地相关知识来解决Q1的做法是不好的。

对于Q2问题而言,在模型中掌握伪装场景的相关知识至关重要。这有助于了解场景中哪些具体特征会直接影响特定物体的伪装效果。

伪装-目标级别有两个知识组成部分:

K#a(知识a):人工生成的一个文本模版是"一个[CLS]的照片"模式,在借鉴了近期图像分类研究[43]的基础上实现了良好的效果,并使模型能够识别其所需感知的对象类别;K#b部分则具体说明了针对特定目标所涉及的具体形态学信息及其物理特性,并通过提示1(P#1)从MLLM中获取相关数据

伪装-场景级别:

包含了涵盖伪装场景多层次的知识体系,在宏观上对整体场景进行了概括性描述,并在微观层面对不同细节进行了深入刻画。具体而言,在颜色特征方面有K#d的支持,在纹理特征方面有K#e的研究,在形状特征方面有K#f的支持,在光照特性方面有K#g的探讨。这些知识是我们从一个MLLM中提取的。

在完成我们的多层次知识整理后, 知识工厂模块将这些内容传递至知识编码器, 如图所示. 知识编码器的任务是将语言领域的知识转换为嵌入空间中的表示, 具体实现方式是将每一级的知识信息转化为一个向量, 并将其传递给随后的知识注入器.

知识注入器:

如前所述,在知识注入器中进行处理后接收到来自知识编码器的数据,并负责以下两项核心功能:(a)综合多级别的信息进行筛选与整合,并(b)将获取的信息与视觉模式进行精确对准以实现信息传递效率的最大化。

为了有效整合从知识编码器接收的多层次知识表示,我们设计了一种加权整合策略来进行选择与融合。如图4所示,在层间和层内分别进行选择与融合以生成对视觉解码器具有良好集成引导作用的知识注入。具体而言,在经过编码后得到7个512维向量k_a至k_g(记为k_a - k_g)。将伪装目标级知识k_a与k_b的编码向量k_a与k_b连接形成一个1024维向量之后,通过全连接层处理得到最终的1024维表示。

对于表示伪装场景的知识K#c至K#g, 我们设计了一种加权融合方法. 其中, K#c用于全局描述场景特征, 而K#d至K#g则分别从颜色、纹理、形状以及光照角度对伪装场景进行了多维度描述. 这些不同角度的比例会因具体实例的不同而有所变化. 因此, 我们根据KC与KD至KG之间的相似度来决定各知识分量的比例. 计算KC与KD至KG的点积后得到四个亲合度数值. 经过Softmax函数处理后得到权重λD至λG. 通过权重λD至λG对KD−KG进行加权求和得到一个新的512维向量ks. 将KS与KC连接后, 通过一个1024×1024全连接层生成最终的1024维向量kScene. 最终输出kTarget与kScene的平均值作为引导输出, 并将其注入视觉解码器. 所有全连接层均采用GELU激活函数[13].

(b)在完成跨模态表示空间的对齐后,在经过筛选并融合的知识信息基础上输入至视觉解码器系统中进行处理。如前所述,在这种设计下采用多层感知机(MLP)构建了独立于复杂适应网络架构之外的知识注入模块,并将其投射至视觉解码器中使用。随后,在这一过程中整合感知外部的视知特征以及内部编码的知识信息,并通过非线性变换机制推导出目标遮挡掩模作为系统的输出结果。

文本模态例子:

一张随机的嘲鸟的迷彩图片:

在本例中,“颜色”、“纹理”、“形状”和“光”的重要性分别为0.30、0.25、0.27和0.18。这表明图像中的嘲鸟主要依赖颜色来进行伪装,因为其与环境高度契合。这种观察与直觉感知是一致的

在这里,我们将说明我们的一小部分贡献。

其他数据集就COD和Ref-COD的公开数据集

训练方式:

该研究采用PyTorch [41]框架作为基础工具,并基于其强大的计算能力实现了一种创新的方法ology框架

一些性能比较:

REF-COD

COD

Zero _SHOT

消融实验

加上文本模态,降低了0.003的点,也就是降低了13%。

后续想法:看看SAM的代码学习一下。尝试学习如何微调SAM

总结

我们开发了一种多层次的知识图谱增强目标检测(MLKG-M)多模态方法(Ref-COD),该方法基于多模态大型语言模型(mllm)的强大语义理解和内部知识体系,在解析复杂任务方面展现出独特的人类-like解析能力。通过整合来自mllm的多层次知识描述框架,在分割模型中逐步引导识别伪装目标与背景场景特征的同时,在文本参考信息与伪装图像配准方面实现了精准匹配。本文的主要贡献体现在三个方面:首先探索性地应用大型语言模型知识到Ref-COD与传统的COD领域;其次从理论层面系统性地将Ref-COD分解为两个关键维度以提升算法可解释性;第三在Ref-COD与COD基准测试集上实现了超越现有算法的最佳性能指标;此外通过合理配置丰富的人类-knowledge资源实现了零镜头条件下对单模态数据集的最佳泛化性能;最后我们对未来研究方向提出了展望:不仅限于Ref-COD领域还涵盖其他复杂的视觉感知任务并致力于构建一个更具通用性的大型模型驱动的知识图谱框架以推动相关领域的研究与发展

全部评论 (0)

还没有任何评论哟~