Advertisement

《MaPLe: Multi-modal Prompt Learning》论文解读

阅读量:

系列文章目录


文章目录

我们发现,在不同阶段共享提示优于独立提示的原因在于连续的transformer块处理使得特征更加高度相关。因此,在后续阶段无法提供与早期阶段相比的独立学习补充提示


论文细节理解

当前的方法不允许灵活地进行调整以适应下游任务中的两个表示空间之间的互动关系。

基础视觉语言(V-L)模型如CLIP(对比图像预训练)[32]已经展现了对下游任务的卓越泛化能力。经过训练后这些模型能够在大规模数据集上实现语言与视觉模态的对齐例如CLIP拥有4亿个文图对。自然语言提供的丰富监督使这些模型能够推导开放词汇的视觉概念[17 42]。在推断过程中通过手工设计的文本提示例如“一张图片中的”作为编码器输入将输出文本嵌入与来自图像编码器的视觉嵌入进行对比以确定输出类别这一过程已被证实能有效提升性能。

few-shot and zero-shot visual recognition tasks.详细解释一下
Few-shot 视觉识别任务:
Few-shot learning(少样本学习)指的是,模型在面对只提供少量样本的情况下,仍然能够识别新类别的能力。这种任务模拟了在真实世界中,标注样本不足的场景。
核心思想:模型在训练时只接触过有限的几类数据(基础类别),但在测试时会遇到一些新类别,针对这些新类别,系统只能得到极少数的样本。例如,给出每个新类别的1张或5张样本,然后要求模型基于这些少量样本去推断同类的新图像。
挑战:Few-shot 任务的难点在于,模型必须学会从少量样本中提取核心特征,并将这些特征泛化到更多未知的数据中。这意味着模型需要很强的特征抽象能力,而不是依赖大量的标注数据进行训练。
Zero-shot 视觉识别任务
Zero-shot learning(零样本学习)更进一步,要求模型在没有任何样本的情况下,识别从未见过的类别。换句话说,模型必须能推断出从未接触过的数据类别,这一过程基于其对视觉和语言等其他模态之间关联的理解。
核心思想:Zero-shot 任务中的新类别在模型的训练过程中完全没有出现过。模型基于训练时学到的知识和关联规则,利用语言描述或其他模态的提示来推断这些新类别的视觉概念。例如,给出类别的文字描述或者类别标签,模型需要匹配出图像与类别的关系。
应用:CLIP等模型能够处理Zero-shot任务,是因为它们经过了大规模视觉-语言对齐训练。通过自然语言和图像之间的对应关系,模型在测试阶段可以根据文字提示(如“a photo of a zebra”)来推断出从未见过的斑马图像对应的类别。
Few-shot 与 Zero-shot 的差异
Few-shot 任务提供了少量样本,模型可以通过这些样本来学习新类别的特征。
Zero-shot 任务完全没有样本,模型必须依靠对其他模态(例如语言描述)的理解,来推测新类别的特征。
总结来说,Few-shot 和 Zero-shot 视觉识别任务测试了模型在有限或无样本情况下的泛化能力,挑战在于如何从极少或没有直接训练数据的前提下,做出准确的预测。

研究者通常采用两种主要方法来帮助CLIP模型(即视觉语言模型)适应下游任务的需求:一种是通过完全微调实现功能拓展[9];另一种则是采用更为简洁的线性探测策略来进行适配[10]。这两种方法各有优劣,在实际应用中需根据具体需求选择合适的策略。以下将分别对这两种方法的技术细节及适用场景进行详细阐述

Our research reveals that shared prompts across different stages exhibit superior performance relative to independent prompts, largely attributed to the enhanced correlation of features resulting from successive transformer blocks. Consequently, the later stages fail to offer independently learned complementary prompts in comparison with the earlier stages.

这句话的意思是在运用transformer模型时促进不同阶段间的提示共享 比在各自独立的各个层次中应用提示更为有效原因在于transformer模型中的各个层次依次处理输入数据并提取出具有相关性的特征

具体来说:

在transformer架构中各层依次处理数据时,特征间的关联度会逐步提升。这表明后续层在进行数据处理时已获取前一层的信息作为背景,在此过程中所学习到的特征与前一层具有更为紧密的关系

提示的共享 vs 独立 :当我们在不同层级中分享提示时,在模型处理过程中这些提示会相互作用影响并传递信息给后续层次。这不仅能让后续层次获得更丰富的信息,并且这些信息具有上下文关联性。相比之下,在每个层级单独使用不相关的提示会导致后续层次无法从整体上吸收前期层次的知识。这是因为它们各自单独处理而不进行交互。

总的来说,在研究过程中发现作者主张通过逐步强化特征的相关性关系来优化提示共享机制,并认为这一改进有助于提升模型的整体性能表现。

全部评论 (0)

还没有任何评论哟~