Advertisement

【论文笔记】one embedding space to bind them all

阅读量:

IMAGEBIND: One Embedding Space To Bind Them All

论文原文:

https://arxiv.org/abs/2305.05665

了解更多关于论文的详情:

https://ai.meta.com/blog/imagebind-six-modalities-binding-ai/

一,Abstarct

本文提出了imagebind,一个学习跨六种不同模式的联合嵌入的方法——图像,文本,音频,视频,深度数据,红外数据和IMU数据。

本文提出,获取六种模式的联合嵌入空间,并不需要六种模态的所有组合数据集,而只需要使用图像作为桥梁就可以实现。也就是说,只需要使用图像与其他五种模态的配对数据集进行训练即可实现将六种不同模态映射到联合嵌入空间。(joint embedding space)

使用imagebind,可以在跨模态检索,跨模态检测和生成等领域取得不错的结果,同时在零样本或小样本识别与分类任务上取得了良好的结果。

二, emergent zero-shot classification and retrieval performance

本文发现,将每种模态的embedding 对齐到图像的embedding可以实现所有模态的对齐 ,利用这种特性,能够实现零样本分类与检索任务

指的是在没有针对特定任务进行训练的情况下,模型能够展现出的跨模态识别和检索能力。

Emergent(涌现的):这个术语强调了模型在训练过程中没有专门为了某个任务进行优化,但是最终却能够在这个任务上表现出色。这种能力是从模型的整体训练过程中“涌现”出来的,而不是显式地被设计出来的。例如,在IMAGEBIND的例子中,模型通过图像-文本对进行训练,但最终能够在音频分类任务上表现良好,这是因为模型学会了如何将音频特征与已知的图像-文本特征对齐,从而在没有直接音频-文本对的情况下也能进行音频分类。

Zero-shot(零样本):零样本学习是指模型能够在没有见过目标类别的任何训练样本的情况下,正确地识别或分类这些类别。在IMAGEBIND的情境下,这意味着模型能够在没有看到过特定音频标签的情况下,仅通过与图像或其他模态的关联,正确地识别音频的内容。 具体到IMAGEBIND Emergent Zero-Shot Classification:IMAGEBIND通过图像-文本对进行训练,但能够利用学到的跨模态表示能力,实现对音频、深度等其他模态的零样本分类。例如,在音频分类任务中,尽管模型从未直接学习过音频和文本的配对,但它依然能够通过将音频嵌入与已知的文本嵌入对齐,实现音频分类。

Emergent Zero-Shot Retrieval:同样地,IMAGEBIND能够在没有直接训练的情况下,根据文本查询检索出相应的音频或图像。例如,用户输入一段描述“狗吠声”,模型能够从数据库中检索出包含狗吠声的音频文件,即使模型在训练过程中从未见过这样的文本-音频对。

三,goal and method

Our goal is to learn a single joint embedding space for all modalities by using images to bind them together. We align each modality's embedding to image embeddings, such as text to image using web data and IMU to video using video data captured from egocentric cameras with IMU

绑定不同模态数据与图像数据的方法是使用infoNCE损失:

其中qi表示图像的embedding,而ki表示对应于该图像的其他模态的embedding,kj表示不对应该图像的其他模态的embedding,也即kj是负样本

在实际使用中,考虑了双向损失,即:

温度系数的作用为:

温度系数会直接影响模型的效果,可以控制q * k的分布形状,当温度系数值变大时,会导致q * k的值普遍变小,经过指数运算后,这种变小的程度会被放大,导致q * k的分布变得更加平滑。相反,若温度系数取得值小,则会导致q * k的值普遍变大,经过指数运算后变得更大,使得其分布更加集中。当分布变得平滑时,会导致模型对所有负样本一视同仁,导致模型没有轻重,而温度系数太小时,会导致模型关注困难的负样本,而那些负样本可能是潜在的正样本,这会导致模型很难收敛或者泛化能力差。

四, performence

使用文本提示的零样本分类能力:
少样本分类能力:

使由imagebind训练的encoder进行分类任务,固定encoder仅训练分类器效果如下:

在每个类别的样本数很少时,仍能有较好的分类性能

跨模态组合信息:

imagebind可以实现跨模态组合信息:

全部评论 (0)

还没有任何评论哟~