Advertisement

MaPLe: Multi-modal Prompt Learning

阅读量:
markdown 复制代码
这是一个包含源代码的GitHub存储仓库:https://github.com/muzairkhattak/multimodalprompt-learning "这是一个包含源代码的GitHub存储仓库:https://github.com/muzairkhattak/multimodalprompt-learning"

**目录**

摘要

1.简介

2.相关工作

3.方法

3.1回顾CLIP

3.2MaPLe:Multi-modal Prompt Learning

3.2.1 Deep Language Promptin

3.2.2 Deep Vision Prompting

3.2.3 Vision Language Prompt Coupling

4.实验

4.1基准设置

4.2 通过V-L prompts prompting CLIP

4.3 基类到新类的泛化

4.4 跨数据集评估

4.5 域泛化

4.6 消融实验

5.总结

* * *

动机:

过去的做法是仅在图片或文本单一模态中设置prompt,并未考虑多模态协同优化的问题。我们发现,在每一个单独的分支(即图像或语言模态)中设置prompt的能力仍然存在局限性。因此,他们建议每个模态都应该独立设置自己的prompt以提升整体性能。为此,作者引入了一个称为coupling function的机制来连接两个分支的prompt嵌入空间。具体而言,在视觉分支中嵌入的prompt表示是基于语言提示嵌入经过映射得到的。

## 摘要

基于视觉语言(V-L)模型(如CLIP)的研究表明,在下游任务中展现了卓越的能力。然而,在输入提示的选择上存在一定的敏感性,在选择合适的提示模板时需要特别谨慎。受自然语言处理文献启发的研究者们开发出了一种改进方法:通过微调下游任务来优化CLIP性能。我们发现仅在单个分支(视觉或语言)中适应表示是次优策略:因为它限制了在下游任务中灵活调节两个表示空间的能力。为此我们提出了一种名为多模态提示学习(MaPLe)的方法:旨在增强视觉与语言分支之间的协同关系并促进一致性的建立。通过这种方法实现了相互协同作用的同时也避免了各自独立学习单模态特征的可能性。此外我们还在不同阶段分别学习了独立的提示机制以便逐步建模阶段特征之间的关系从而促进丰富的上下文信息提取与利用。为了评估该方法的有效性我们选择了三个具有代表性的任务进行了测试包括新类别的泛化能力测试新的目标数据集应用以及跨域迁移能力验证。与最新的CoCoOp方法相比我们的MaPLe方法在11个不同的图像识别数据集上均取得了显著提升其在新类别上的平均增益达3.45%并且总谐波平均值提升了2.72%

## 1.简介

基础视觉语言(V-L)模型(如对比语言-图像预训练)在下游任务中展现出卓越的泛化能力

虽然CLIP在新概念的泛化上表现良好,
然而,在大规模预训练阶段获得的知识可能导致下游任务模型出现过拟合风险。
这种微调可能会导致模型在下游任务中出现过拟合问题。
为了应对这些挑战,
已有研究表明通过语言提示学习来避免手动调整提示模板,
并提供了一种无需人工干预提示模板设置的新机制,
同时能够适应模型原有参数而不改变其原始权重。
受自然语言处理技术的影响,
这些方法主要针对CLIP文本编码器的提示学习进行了探索(如图1所示),
而如何同时优化图像编码器的工作原理仍是一个待解决的问题

我们的研究起因在于CLIP模型独特的多模态特性,在这种架构下文本编码器与图像编码器实现了并存共生,并共同促进了V-L模态间的精准对齐。我们坚信任何提示技术都应充分适应模型的整体需求,在此前提下仅优化文本编码器的学习策略显得不够完善。因此我们着手构建完整的提示机制体系,并在此基础上提出了多模态提示学习(MaPLe)方法。该方法旨在通过精细微调优化文本与图像编码器的表现,在下游应用任务中实现最佳对齐效果(见图1:b)。为了验证MaPLe的有效性与普适性,在基础至新类别的泛化能力测试、跨数据集评估以及域泛化性能测试等关键指标维度展开了系统性实验研究。具体而言,在基础至新类别的泛化测试中,我们采用11个不同图像识别数据集作为测试基准,并与现有提示学习方法进行了全面对比分析(见图1:c)。结果显示在novel类分类任务上实现了一个绝对平均增益值为3.45%的结果指标;同时在harmonic-mean评估指标上较先进的Co-CoOp方法实现了2.72%的绝对平均增益提升值(见表1)。此外在跨数据集传输能力与领域泛化的性能评估方面表现尤为突出,在这些指标维度上的改进幅度均达到了一致水平(见图2:d)。值得注意的是尽管MaPLe架构设计基于其简洁高效的原理但在训练推理效率方面却并未逊色于Co-CoOp;相反由于去除了后者所特有的实例化条件设计限制 MaPLe在整体性能表现上展现出更加优异的竞争优势。

![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-16/V5lkzcnRHjY4vowJWUGTL7MSi9tf.png)

本文的主要贡献:

本研究中提出了一种新型的多模态提示机制,在促进视觉与语言表示之间建立更加紧密的关联方面取得了显著成效。通过这项创新性研究发现的方法首次被用于微调CLIP模型。

为了建立文本与图像编码器中学习到的提示之间的关联性,在此基础上我们提出了一种显式的关联机制——一种耦合函数。这种机制不仅能够将视觉提示与其对应的语言提示进行关联,并且还能够作为两种处理模式之间的纽带,在不同模态之间实现梯度信息的有效传递与协调作用。

我们的多模态提示是由视觉和语言分支构成的一个multi-modal提示机制,在其内部包含了多个transformer blocks用于逐步学习两种模式之间的相互作用机制。该多层次prompt设计使得我们可以分别对不同类型的上下文关系进行建模,并为此提供了更大的灵活性以实现视觉-语言表示的有效对齐

## 2.相关工作

**Vision Language Models:** 语言监督与自然图像的融合应用是计算机视觉领域受到广泛关注的问题。与仅基于图像监督训练的模型相比, 视觉语言(V-L)模型包含了多样化的多模态表示能力。近期, CLIP、ALIGN、LiT、FILIP 和 Florence 等一系列 V-L 模型在多项典型任务上展现了卓越性能, 包括少量样本和零样本视觉识别等前沿领域。这些模型通过自监督学习的方式利用可获取的数据, 学习联合图像-语言表示。例如, CLIP 和 ALIGN 分别基于约 400 亿和约 1 万亿图像-文本对进行了训练, 构建了多模态网络架构。尽管这些预训练的 V-L 模型成功地建立了广义表示能力, 将其有效地迁移至下游特定任务仍面临诸多挑战。通过开发专门的方法来适配 V-L 模型以实现少量样本图像识别、目标检测及分割等任务, 已经有多项研究证明这种方法在下游任务上具有更好的性能表现。在此研究中, 我们提出了一种新型多模态提示学习技术, 其核心在于能够有效地将 CLIP 迁移到少量样本视觉识别、目标检测及分割等复杂任务中。

>
>
> $1$:针对未知类别的任务仅需极简样本数量即可实现高效学习
>
>
>
> $2$:基于可观察类别进行训练 从而实现对未见类别 的识别
>
>

**Prompt Learning:** 特定类型的指令形式作为文本提示,通常提供给V-L模型作为语言分支来增强其理解能力。这些语言分支既可以由人工根据下游任务需求手动创建,也可以在微调阶段自动学习出来,这种被命名为"prompt learning"的概念后来被引入到自然语言处理领域,随后又被扩展到视觉语言(V-L)模型以及仅依赖视觉信息的模型中使用。值得注意的是,这种方法与视觉提示调谐类似地,我们采用了深度"vision"提示的方法,但我们的系统是多模态设计

**Prompt Learning in Vision-Language Models:** 通过全面微调和线性探测使CLIP模型适应下游任务的两种典型方法是当前研究的重点方向之一。其中, 全面微调导致CLIP模型先前学习到的联合表示能力有所下降, 而线性探测则限制了其在zero-shot学习任务中的表现能力。受NLP领域提示学习的启发, 许多研究者开始探索如何通过端到端训练中自适应地学习prompt token来提升模型性能[25]。CoOp方法通过优化其语言分支中的连续提示向量集来进行微调, 并实现了多轮传输的目标[18]。然而, Co-CoOp方法在泛化能力上仍有待提升, 主要是因为其未能有效解决从特定类别到新类别推理的问题[1]。此外, [25]提出了一种基于提示分布优化多组提示的方法,[18]则聚焦于视频理解任务提示的学习问题,[1]则通过引入视觉提示来优化CLIP模型的语言分支表现[25]。值得注意的是, 当前的研究大多采用独立的单模态解决方案, 即仅在语言分支或视觉分支中学习prompt token以适应CLIP模型[25][18][1]。本文旨在探讨一个问题: 由于CLIP具有多模态特性, 是否应该同时在语言和视觉分支中进行提示学习以更好地适应CLIP?为此, 我们提出了一种多模态提示学习方法的第一性原理探索框架[25], 旨在通过提升视觉与语言表征的一致性来改善模型性能[18][1][25]

Full fine-tuning: 基于已知的网络架构及其参数设置,在output layer上更换其特定的设计,并优化倒数第二至多几layer layer parameter settings. 这样就能充分运用深度神经网络强大的泛化特性.
linear-probe method: 将最终 layer 替换为 linear transformation layer, 并仅对该 linear transformation layer 进行训练. 通常用于评估预训练 model 的性能.

## 3.方法

该方法基于预训练的多模态CLIP模型进行微调,并通过提示信息实现上下文优化以更有效地应用于下游任务。图2展示了我们提出的MaPLe框架的整体架构与现有研究[48,49]相比,在这一方面存在显著差异:我们提出了一种联合提示机制,在视觉与语言分支中均为提升性能而被学习地整合起来。具体而言,在语言分支中增加了可学习的上下文标记,并通过设计特殊的耦合函数,在语言prompt中嵌入视觉prompt信息以建立两者的交互关系。为了构建多层次表示体系,在两个不同的transformer块中分别引入了可学习的分层上下文表示机制。值得注意的是,在微调过程中仅更新用于表示上下文的信息提取模块而其余模型参数保持不变。下面我们将重点介绍预训练阶段CLIP模型的设计架构。

![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-16/En2wykrI91MQbLWsjg30vH4JSm8e.png)

### 3.1回顾CLIP

我们基于先验训练的视觉语言(V-L)模型CLIP上开发了我们的方法,在该框架下CLIP由文本信息与视觉编码器相结合构成。与现有的提示方法保持一致[48,49]的研究框架下,我们采用了Vision Transformer( ViT)作为CLIP模型的基础架构.该系统通过将图像I与其对应的文本描述进行联合编码过程实现信息整合,具体而言,如后续所述.

**Encoding Image:** 图像编码器V有K个transformer layers。先将图像I分割成M个固定大小的patches,这些patches投影到patch embeddings E0,patch embeddings Ei与一个可学习类(CLS)token ci一起作为第(i+1)个transformer blocks(V(i+1))的输入,并通过K个transformer blocks顺序处理。

![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-16/18gTYswPnFmaz9WLE03SdQtDRrOu.png)

最后的transformer层(Vk)通过ImageProj将class token Ck映射到公共V-L潜在embedding空间,并实现了单模态特征向多模态特征的有效转换。

![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-16/t0xfTvrXkQGJM1PFNLbnuCzy3iV7.png)

**Encoding Text:** CLIP文本编码器通过对单词进行标记并将其投影到词embeddings$W0 =[w^^{​{_{}}^{}}{_{0}^{1}},w^^{​{_{}}^{}}{_{0}^{2}},...,w^^{​{_{}}^{}}{_{0}^{N}}] \epsilon R^{M*d_{l}}$ 来生成用于文本描述的特征表示。在每一阶段,Wi输入到文本编码分支(Li+1)的(i +1)个transformer块,

![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-16/PaiL0h3ACeJnpMvj9STs8uGX415g.png)

采用TextProj方法对最后一个变块$L^^{_{}}{_{K}}$进行处理后, 将其映射到一个公共的V-L潜在嵌入空间中, 从而获得最终的文本表示z

![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-16/IDt7gy4EWUPNqiSxo9YXe0FABdws.png)

**Zero-shot Classification:** 在zero-shot分类任务中,文本提示由人工生成,并且每个类别标签y∈{1,2,…, C}(例如,“一张图片中的一个类别”,如‘一张图片中的一个类别’)共有C个类别。通过设置温度参数τ来计算图像I与所有候选类别之间的余弦相似度sim(·),从而确定最终预测类别y。

![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-16/TdiSAmfVqtOpN3C2vkZUlWj8ybJw.png)

### 3.2MaPLe:Multi-modal Prompt Learning

我们致力于通过多模态提示方法有效优化CLIP模型在图像识别任务中的性能。鉴于现有单模态方法难以满足动态适应的需求,我们主张多模态提示策略具有更高的灵活性和适应性。在本研究中,在图3中展示了MaPLe的图像embedding特性与其竞争对手Co-CoOp之间的差异。通过对比实验,在图3中展示了MaPLe的图像embedding特性与其竞争对手Co-CoOp之间的差异。实验结果表明,在学习语言提示方面MaPLe表现出明显优势,并且其视觉提示能力也得到了显著提升。

引导CLIP更有效地适应目标领域。
除多模态引导外,在更深层的transformer层中通过逐步建模阶段特征表示的学习过程是必要的。
为此提出:在视觉与语言分支前J层(其中J < K)引入可学习token。
这些分层引导能够充分利用CLIP模型中的嵌入知识来有效学习与任务相关的上下文信息(参考图4)。

![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-16/7oug0rXCvWMAhN23GIELzVaypskB.png)

![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-16/uyKz9EawVo4psmMSUL3ITWYNJRfn.png)

#### 3.2.1 Deep Language Prompting

为了实现语言理解能力的提升,在CLIP的架构中引入了可学习的标记符号{ ${P^{^{i}}} \epsilon R^{^{^{d_{l}}}$} }

![_{i=1}^{b}](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-16/TpC3knztQRYyZx5iSlqMrusUd6j0.png)

。输入embeddings现在遵循[

![P^{^{1}},P^{^{2}},...,P^{^{b}},W_{0}](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-16/jtkH4coOKXFnGZCDisVmYxvU9erq.png)

]的形式,其中![W^{_{0}} = \[w^{^{1}},w^{^{2}},...,w^{^{N}}\]](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-16/Jb3CQiz28LmqaByTcjhFsW9OntYR.png)对应于固定的输入tokens。在语言编码器(Li)的每个transformer block中进一步引入新的learnable tokens,直到特定深度J,

![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-16/Fa3tT69HWzUsbuvxDfkdM0A4VjhQ.png)

后续的层处理前层的prompt,计算最后的文本表示z,

![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-16/NgkCQfjOaLYJpcPGq1WMB378wym9.png)

若J=1,则可学习标记P仅限于第一层transformer的输入应用,并且该技术最终转化为CoOp框架。

#### 3.2.2 Deep Vision Prompting

类似于深度提示模型,在CLIP模型的视觉路径中,在输入图像标记旁新增b个可学习token

![\bar{P}^{^{i}}\epsilon R^{d_{v}}](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-16/TojJ4pMNBLqksOe0xHbhPyKDY9GC.png)

}

![_{i=1}^{b}](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-16/75OkLcSBxfheuFWMA6lHnQoqYDgZ.png)

在图像编码器(V)较深的transformer层中逐步引入新的可学习tokens一直到深度J

![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-16/tagVNBfjm2A6FwHEyp5O9XvWd807.png)

该系统通过跨ViT架构实现了多层次特征提取的能力。研究表明,在独立提示方案下进行多阶段共享可能效果不佳。值得注意的是,在早期训练阶段引入后续模块可能不会显著提升模型性能。由于连续transformer块的设计使得各层特征间具有较高的关联性

#### 3.2.3 Vision Language Prompt Coupling

我们建议,在提示调优过程中, 采用多模态方法, 并配合CLIP的视觉与语言模块来实现完整的上下文优化. 一种简便的方式就是将深度视觉与语言提示进行融合, 并在一个统一的学习框架内整合语言提示P与视觉信息.

![\bar{P}](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-16/fuehVGOWEq1I0TUQPKoLz5nSsgya.png)

我们采用了"独立V-L提示"作为名称。尽管这种方法满足了提示完整性要求,但因为视觉与语言分支在处理学习任务相关上下文提示时缺乏相互协作,因此这一设计缺少了视觉与语言分支之间的协同作用。

为此

![\bar{P}_{_{K}}=F_{K}\(P_{K}\)\)](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-16/uQhKJPNcOFVyAbmM8nSv06EBixpR.png)

。耦合函数是作为一个线性层实现的,它将d

![_{}](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-16/5dLWQyAJEGDzkxsFB39fXPSqVw4i.png)

![_{l}](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-16/4KFUilVeaumYxjHMDpQvO5wLIcZ9.png)

维输入映射到d

![_{v}](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-16/tIU5v8kHT2bs0QyMGBORSxwpYXgz.png)

。这作为两种模式之间的桥梁,从而鼓励梯度的相互传播。

![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-16/2PTEZAJWmeY3DQGraxSfvjL05NF8.png)

与独立的V-L提示不同,对P的显式地调节

![\bar{P}](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-16/0YCZk8DBwn5gNAdajV9WvrlLJPIS.png)

能够在两个分支之间共同拥有一个嵌入空间来提取提示信息,并以此增强相互间的协同作用

## 4.实验

### 4.1基准设置

我们考察了该模型在从基类到新类的泛化能力,并采用了zero-shot学习方法。我们将数据集划分为基础类别与 novel 类别,并对该分类器仅基于少量样本学习了基础类别特征进行了多轮测试,在基础类别与 novel 类别上进行了多轮测试以验证其推广性能。

**跨数据集评估:** 为了考察该方法在跨数据集间的迁移能力, 我们直接测试了经过ImageNet训练的模型. 与Co-CoOp一致, 在所有1000个ImageNet类别上, 该模型通过极简样本学习完成了迁移.

**域泛化:** 针对分布外适应性的研究中, 我们对 ImageNet 模型进行了系统性的验证, 以确保其在未知领域环境下的表现稳定性。与之前的实验设计相似地进行, 我们将模型分别应用于另外四个典型图像分类基准测试, 以全面考察其适应能力的上限

**数据集:** 为了实现从基础类别到新类别的泛化评估以及跨数据集测试,在多个图像分类基准上验证了我们的方法的有效性。这些基准涵盖了多样化的识别场景,并分为以下几大类:两个通用对象数据库(ImageNet 和 Caltech 101),五个细致分类系统(Oxford Pets、Stanford Cars、Flowers 102、Food 101 和 FGVCAircraft),一个场景识别数据库(SUN 397),一个动作识别数据库(UCF 101)以及两个纹理相关库(DTD 和 EuroSAT)。在进行域适应性研究时,默认选择 ImageNet 作为源域,并采用 ImageNet V2、Image 等四个变体作为目标域进行测试。

具体实现细节如下:我们采用了few-shot学习策略,在每个实验中为每个类别随机选取16张图片,并在预 trained 的 ViT-B/16 CLIP 模型基础上进行提示微调。其中 dl = 512, dv = 768 和 dvl = 512 是用于该过程的关键参数设置。对于 MaPLe 模型而言,默认我们将提示深度 J 设定为 9,并将语言提示与视觉提示的长度均设置为 2。所有模型均在单个 NVIDIA A100 GPU 上使用 SGD 优化器进行 5 个 epoch 的训练,并采用批大小为4 的配置以及学习率设为 0.0035 的策略。我们报告了两类别的精度指标及其谐波平均值 (HM) 在三次独立运行中的平均结果。初始化时,默认情况下第一层 P₀ 的语言提示基于模板 'a photo of a <category>' 使用预 training CLIP词 embedding;而对于后续层,则采用从正态分布随机初始化的方式完成前向传播计算过程。值得注意的是,在对 ImageNet 所有 1000 个类别构建源模型的过程中,默认我们将提示深度 J 设置为3,并对模型执行两次 epoch 的微调操作;此外还设置了学习率设为 0.0026 的超参数配置方案以保证最佳收敛效果。至于其他相关超参数如深度语言提示、深度视觉提示以及独立 V-L 提示等,则完整地参考附录 A 中详细说明的内容

### 4.2 通过V-L prompts prompting CLIP

在本研究中

![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-16/uFBXMylArWYfkJSZq1tDLezbnUvR.png)

### 4.3 基类到新类的泛化

**Generalization to Unseen Classes:** 表3展示了MaPLe在从基础到新类的泛化设置下,在11个识别数据集上的性能表现。我们将其性能与CLIP零样本学习方法以及最近提出的提示学习方法CoOp和Co-CoOp进行了比较。在CLIP框架下,则采用了为每个数据集定制的手工提示策略。

![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-16/RON4zy6bLHn0c5CsVdjM3f9FWZmP.png)

相较于现有的Co-CoOp方法,在经过优化后的MaPLe模型在全部的11个基准数据集上均实现了基础分类任务与学习新类别任务的成功率提升。值得注意的是,在Caltech 101基准数据集上这一改进并未带来显著的优势。通过整合分支感知机制以及多模态提示信息,在所有测试用例中模型能够更高效地泛化至未见过的新类别类型,并且其总体提升幅度较之前的71.69%有所增加至75.14%。综合考虑基础分类任务与学习新类别任务的关键指标后发现,在这些指标下的平均提升幅度较之前的3.28%(即2.72%)有所增加。

相较于CLIP而言,在4/11的数据集上Co-CoOp的表现略低于其水平。具体而言,在该数据集上的平均新分类准确率从原先的74.22%下降至71.69%。可贵的是,在另一份名为MaPLe的数据集中,则展现了显著的竞争实力——它不仅进一步优化了CLIP的新分类能力,并且将该模型在该新类别上的准确度提升了约2.5个百分点

**基类上的泛化与性能优化:** CoCooP通过条件反射机制处理图像实例以解决自身的问题后,在新类别中展现了显著的优势。然而,在基准数据集上的效果提升有限——尽管在6/11的数据集中提示完整性帮助MaPLe将平均基准准确率维持在82.28%左右——同时也在增强对新类别的泛化能力。

研究者们发现采用该策略能够显著提升模型的泛化能力(在新类别中实现了6.8%的增长)。此前提高效果有助于实现更优的结果(更多细节见附录A)。

与CoOP†相比,在基础层上CoCOOP模型表现出明显的过拟合现象。相较于基准水平下达到80.85%精度的CoOP†方法,在准确度提升方面MaPLe取得了显著的进步(表2)。

![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-16/6YGdcJQms82AZ5guLtjaTrkeICU4.png)

###  4.4 跨数据集评估

我们采用了多模态提示在ImageNet的1000个类别中进行学习,并将其直接转移至剩下的10个数据集以评估MaPLe模型的泛化能力。表4对比展示了三种方法——MaPLe、CoOp与Co-CoOp在性能上的差异。相对于竞争方法而言,在ImageNet源数据集上的表现同样令人印象深刻。其在9/10的数据集中超越了CoOp,在8/10的数据集中则优于Co-CoOp。这些结果表明,在采用分支感知的V-L提示后, MaPLe展现出显著的优势,并且其平均准确率最高达到66.3%。

![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-16/ZqjD8Fm9wetNo2EbWlVaOALHKuSQ.png)

### 4.5 域泛化

相较于CoOP框架及其扩展版本Co-CoOP,在分布外测试集上的泛化能力更强。我们通过系统性研究发现:基于ImageNet预训练模型在多种领域外测试集上的迁移性能表现优异,并且实验结果显示,在表5所列出的所有现有方法中,该算法的表现持续优于它们。这一发现表明:通过引入多模态分支感知提示机制能够显著提升基于CLIP等视觉语言模型(V-L model)的鲁棒性和泛化能力

![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-16/0DgQS45Al2JLdf38FWsOZyBIwato.png)

### 4.6 消融实验

**Prompt Depth:** 在图4左侧部分中, 我们分别探讨了MaPLe以及提示深度J对语言分支与视觉分支深度的影响情况。通常情况下, 随着提示深度的增加, 性能会呈现提升趋势。我们观察到, 当在模型特征空间中已达到较高成熟度的冻结模型基础上进一步插入较深层的随机初始化提示信息时, 性能灵敏度会有明显提升。如前所述,b[16]也报道了类似的趋势。鉴于早期研究主要采用浅层语言提示策略(J=1),本研究旨在将其与基于深层语言提示策略进行对比分析。综上所述,MaPLe相比基于深层语言提示的方法表现出更好的性能水平,其优势尤其体现在当处理对象具有较深特征提取需求时(如当处理对象具有较深特征提取需求时)

![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-16/5ngDbSTLGJ8mQyvaNqz74UWE3K6h.png)

**Prompt Length:** 图4(右)展示了提示符长度对MaPLe的影响。
随着提示符长度的增长,在基类上的表现通常维持稳定。
而针对新类别而言,在测试集上的准确性随之降低。
这一现象反映出过拟合在一定程度上削弱了模型对未知类别样本的学习能力。

**Performance of Multi-modal Prompting:** 图5展示了对所选数据集按增加域移顺序进行每类精度分析的结果。该结果表明,在相较于Co-CoOp而言,在不同的数据集中表现出差异性表现。其中,在那些与CLIP预训练数据集存在较大分布偏移的数据集中以及通常罕见且不太通用的视觉概念中, MaPLe相对于Co-CoOp而言表现出更为显著的优势。附录C进一步详细阐述了这些发现

![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-16/wDZReaj3kvWHdOAG1rSNTJBqhYlt.png)

**Prompting complexity:** 表6对比展示了与其他方法相比MaPLe计算复杂度的优势微弱(仅高0.1%)。尽管MaPLe采用了多模态提示策略但其整体浮点运算次数(FLOPS)相较于CoOp与CoCoOp的增长幅度微乎其微。独立采用V-L提示方式所得结果与之相近。就推理速度而言Co-CoOp表现相对落后且受批次大小变化影响显著导致帧率(FPS)保持恒定。相比之下MaPLe完全不受此限制不仅在推理速度上更优而且训练速度也得到显著提升。此外MaPLe在CLIP基础之上实现了2.85%的训练参数优化水平较现有方法有明显改进空间为此我们特意对MaPLe†进行了实验该方法统一采用了基于V-L耦合函数的多层提示策略尽管参数规模缩减约9倍但性能表现依然优于现有方案

该方法具备更高的推理与训练效率。采用统一的V-L耦合函数处理所有层prompt后,相比而言仅需大约十分之一的参数数量(即约9倍减少),其性能表现与传统方法基本持平或相差不大。

![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-16/E3cQ7H8mGFblMv1VdaZAxK6Y9RLw.png)

##

## 5.总结

大规模V-L架构(如CLIP)在适应下游任务方面面临诸多挑战。这一挑战主要源于其庞大的参数量与有限的下游数据集规模。为此,在实际应用中我们采用了基于提示学习的方法方案,在面对新的下游任务时能够有效定制相应的视觉语言架构。然而,在现有研究中发现现有提示学习方法通常仅关注视觉或语言单一方面的信息提取方式存在明显局限性:一方面很多现有研究集中于视觉信息或语言信息的单独优化;另一方面现有方法往往缺乏对两者之间的协同作用进行系统性的探索与优化改进。为此我们提出了一种创新的研究思路:通过在不同层级的任务结构中实现跨模态表示的有效融合与优化提升模型的整体性能表现效果显著地提升了模型在跨类别识别、多模态匹配及跨域推理等方面的性能指标

全部评论 (0)

还没有任何评论哟~