Advertisement

Visual Prompt Multi-Modal Tracking阅读笔记

阅读量:
在这里插入图片描述

目录

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 方法
    • 3.1 基础模型
    • 3.2 Multi-Modal Prompt Tracking

摘要

可见模态对象跟踪为多个下游多模态跟踪任务提供了基础路径。 传统基于RGB的空间信息提取虽然能够继承基础模型的强大表示能力,在实际应用中往往难以满足复杂场景的需求。 尽管在某些场景中具有良好的效果,在面对数据多样性不足以及跨领域适应性不足等问题时表现略显不足。 基于最近成功应用提示学习的语言模型的经验,在本研究中我们提出了一种更为高效的知识迁移策略——视觉提示多模态跟踪方法(ViPT)。 该方法通过学习不同模态间的提示关系与特征关联,在冻结的基础预训练模型之上实现了跨模态信息的有效融合与优化。 ViPT提出了一种全新的知识迁移框架——视觉提示网络架构(VTPA),这种架构通过模块化设计实现了对不同感知通道的有效整合与协同优化,并在此基础上构建了高效的特征映射机制与语义对齐过程。 在具体实现上,ViPT采用了一种平衡性设计——它既能够充分激活大规模预训练网络中的潜在语义表征能力又避免了因引入过多额外参数而导致计算资源浪费的问题。 实验结果表明,在多个关键应用领域——如基于RGB+深度、RGB+红外热成像以及基于RGB+事件检测等——ViPT展现出显著的优势:相比传统全面微调方案仅增加了不到1%的可训练参数量的同时却实现了更优性能水平的具体化体现。

1 引言

什么是多模态跟踪?
多模态跟踪技术是一种能够同时利用不同感知模式来实现目标追踪的方法。
该方法通过将红外光信号与可见光图像相结合实现了目标追踪功能;
其中,在RGB-D系统中深度图的作用被详细阐述:它包含了与视点场景对象表面距离相关的图像通道信息,在这种情况下每个通道类似于灰度图像中的像素值表示物体表面距离的具体数值;通过将深度图与视觉图像进行有效融合的方式实现了精确的目标追踪;
此外,在RGB-E系统中事件相机的独特性在于其异步数据传输机制:相机仅在检测到感受野内像素变化时才会发送数据包;这一特性使得传统静态成像方式无法适用的动态场景得以用静态图像序列来描述和表示。

多模态跟踪面临的主要挑战在于缺乏充足的高质量标注数据支持。

什么是prompt?
mask与自监督学习:在一段输入向量中,随机掩盖(mask)部分向量的信息,然后将新的向量输入模型进行训练,模型会输入一个被掩盖部分的预测,这部分预测的标签信息是已知的,所以叫做自监督学习。但是这种训练方式会导致上下游任务不一致的问题,因为在真实的推理场景(情感分类)中,输入都是一个完整的向量。因此,需要大量的标注数据对模型进行微调。在预训练-微调范式中,mask只存在于上游任务中。
prompt:用prompt来替换微调。微调需要用特定领域的标注数据来进行训练,而prompt更加灵活,直接将整个输入作为一个提示,然后让模型输入各种领域的预测。可以简单理解为在上下游任务中都加入了mask。

本文提出ViPT并非仅通过微调基于RGB的跟踪器并结合辅助模态分支实现。相反地,ViPT采用了固定整个基础模型,并专属性地学习某些模态特有的视觉提示这一策略,从而最大限度地继承了基于RGB的大规模训练模型参数水平(如图1(c)所示)。与单模态视觉任务中常见的提示学习方式不同,ViPT在进行提示调节时引入了额外的辅助模态输入,这种设计使得基础模型能够更好地适应下游任务需求的同时,还能有效探索不同感知模式间的关联性。具体而言,ViPT在其固定的基础模型架构中增加了几个轻量级且模块化的互补性感知增强模块(MME),这些模块设计旨在系统性地探究各感知模式间的互补特性

本文贡献

在这里插入图片描述

2 相关工作

  1. 当前多模态跟踪技术面临样本数据不足的主要挑战。现有预训练-微调范式依赖于大规模的数据集作为基础支撑,在本研究中我们提出了一种新型的预训练结合提示学习方法以解决这一问题。
  2. 微调过程要求对大规模语言模型的大量参数进行优化调整,并且这种操作会导致计算资源消耗增加和整体效率降低。

3 方法

在本研究中,我们开发了ViPT方法,使其既高效又精准地使基于RGB的传统跟踪模型适应复杂的多模态任务需求。ViPT并非对原有预训练基础模型进行全面微调,而是通过优化少量关键参数实现快速学习,同时具备良好的迁移学习能力和模态互补性优势。我们的ViPT架构架构如图2所示。

在这里插入图片描述

3.1 基础模型

一般情况下,RGB跟踪器能够被划分为三个关键模块:特征提取、融合过程以及边界框预测。如图2所示,在特征提取与融合方面,我们采用了ViT作为主干网络。在后续步骤中,则会依次执行以下操作:首先,在括号内标注的模块中(即[模板]图像和搜索图像),它们会被输入至特征嵌入层以生成Patch;随后,在第二个维度上进行拼接,并将结果传递至一个L层深度的ViT架构中。具体实现细节可参考OSTrack的相关描述。

在这里插入图片描述

3.2 Multi-Modal Prompt Tracking

总体框架:

在这里插入图片描述

模态互补提示器: 最近一批研究开始尝试将可训练参数注入到冻结预训练模型中以提取视觉提示信息。通过微调少量参数实现快速学习,在多个视觉任务中展现出显著性能提升效果。然而更为复杂的任务要求不仅要缩小上下级任务间的性能差距,并且要在两个感知模态之间建立有效的联合信息利用机制。为此我们提出了一种名为MCP的模块用于编码器之间交互机制设计。该模块能够有效提取下游任务在不同层次的语义特征同时深入探讨两种模态间的相互促进关系并生成更具表现力的提示信号。这种混合表征不仅有助于实现中间层基础特征与提示信息之间的互补关系还能平衡基础模态与辅助模态的作用从而形成更为高效的提示机制。具体的理论推导与实验结果将在图4中展示。

在这里插入图片描述

关于fovea的计算如下:

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~