多模态text-image模型之ITC loss

阅读量：

最近在看多模态内容，记录一下文图模型中常用的损失函数。最先提出ITC loss的是论文ALBEF，下面是文章对该Loss的定义

假设有输入图片 I 经过image encoder之后变成{ $v_{cls}, v_1, …, v_N$ }，输入文本 T 经过 text encoder 后变成{ $w_{cls}, w_1,…, w_N$ }

ITC Loss 的全称是 Image-Text Contrastive Loss ，为了在融合之前学习更好的unimodal表示，它学习 $s = g_v (v_{cls})^T g_w(w_{cls})$ ，这里的 $g_v$ 和 $g_w$ 函数是给cls token embedding降维的线性层。另一方面，文图对会进入一个momentum unimodal encoders（这个结构的作用是通过结合过去更新中积累的知识，帮助稳定和提高学习表示的质量），变成 $g′_v (v′_{cls}) 和g′_w(w′_{cls})$

定义：
$s(I, T) = g_v (v_{cls})^T g′_w(w′_{cls}) \\ s(T, I) = g_w(w_{cls})^Tg′_v (v′_{cls})$

对于每个图像和文本，我们计算softmax归一化的图像到文本和文本到图像相似度为：
在这里插入图片描述
其中的 $\tau$ 是可学习的参数。令onehot相似度的真实值是 $y^{i2t} (I)$ 和 $y^{t2i}(T)$ ，真值中负样本对的概率为0，正样本对的概率为1。
ITC loss为 $p$ 和 $y$ 的交叉熵：

ALBEF代码中ITC loss对应的主要代码：

复制代码

        sim_i2t = image_feat @ text_feat_all / self.temp 
        sim_t2i = text_feat @ image_feat_all / self.temp 
        # image_feat和text_feat分别是图片和文本特征，text_feat_all和image_feat_all是从momentum encoder中取出来的文本、图像特征
        # self.temp = nn.Parameter(torch.ones([]) * config['temp']) ，引入一个可学习的参数，可以对计算的结果进行缩放，从而调整模型
                             
        loss_i2t = -torch.sum(F.log_softmax(sim_i2t, dim=1)*sim_i2t_targets,dim=1).mean()
        # F.log_softmax(sim_i2t, dim=1)对sim_i2t的每一行进行log_softmax计算
        # sim_i2t和sim_i2t_targets的形状一样，sim_i2t_targets是真实值
        # F.log_softmax(sim_i2t, dim=1)*sim_i2t_targets是矩阵按元素相乘
        loss_t2i = -torch.sum(F.log_softmax(sim_t2i, dim=1)*sim_t2i_targets,dim=1).mean() 
        # loss_t2i中的操作同上
    
        loss_ita = (loss_i2t+loss_t2i)/2 #求平均得到ITC Loss

之后在更新同一篇文章中的Image-Text Matching (ITM) loss。

全部评论 (0)

还没有任何评论哟~

多模态text-image模型之ITC loss

最近在看多模态内容，记录一下文图模型中常用的损失函数。最先提出ITCloss的是论文ALBEF，下面是文章对该Loss的定义假设有输入图片I经过imageencoder之后变成vcls,v1,…,v...

多模态text-image模型之ITC loss （blip）

ALBEF代码中ITCloss对应的主要代码： simi2t=imagefeat@textfeatall/self.temp simt2i=textfeat@imagefeatall/self.tem...

多模态text-image模型之LM loss （blip）

先贴官方代码：BLIP/models/blip.pyatmain·salesforce/BLIP·GitHub 关于生成式模型微调计算损失的讨论：35封私信/4条消息生成式语言模型的微调，是怎么计算损...

多模态text-image模型之ITM loss（blip）

主要代码： forwardthepositveimagetextpair 正向传播正面的图像文本对 outputpos=self.textencoder.bertencoderembeds=texte...

大语言模型与多模态大模型loss计算

文章目录前言一、大语言模型loss计算 1、loss计算代码解读 2、构建模型输入内容与label标签 3、inputids与labels格式二、多模态大模型loss计算方法 1、多模态loss...

大模型之多模态大模型技术

本文作为大模型综述第三篇，介绍语言大模型多模态技术。不同于语言大模型只对文本进行处理，多模态大模型将文本、语音、图像、视频等多模态数据联合起来进行学习。多模态大模型融合了多种感知途径与表达形态，能够...

CTPN模型详解--Detecting Text in Natural Image with Connectionist Text Proposal Network

文章目录 Abstract 1Introduction 1.1Contributions 2RelatedWork 3ConnectionistTextProposalNetwork 3.1Detec...

大模型学习路线之多模态模型

前言一、多模态模型&理论 1\.CLIP 2\.BLIP 3\.BLIP2 4\.InstructBLIP 二、多模态实践 1\.以CLIP为例 2.以VisualGLM为例三、多模态应用领域总...

多模态模型

转换器成功作为构建语言模型的一种方法，促使AI研究人员考虑同样的方法是否对图像数据也有效。研究结果是开发多模态模型，其中模型使用大量带有描述文字的图像进行训练，没有固定的标签。图像编码器基于像素值从图...

（2-2）多模态模型与框架：多模态模型

2.2多模态模型多模态模型是一类能够处理和融合来自不同模态（如文本、图像、音频等）数据的机器学习模型，它们通过联合学习不同模态的特征，实现更丰富和准确的理解和生成任务。

是否确定退出登录?

多模态text-image模型之ITC loss

全部评论 (0)

相关文章推荐

多模态text-image模型之ITC loss

多模态text-image模型之ITC loss （blip）

多模态text-image模型之LM loss （blip）

多模态text-image模型之ITM loss（blip）

大语言模型与多模态大模型loss计算

大模型之多模态大模型技术

CTPN模型详解--Detecting Text in Natural Image with Connectionist Text Proposal Network

大模型学习路线之多模态模型

多模态模型

（2-2）多模态模型与框架：多模态模型