Advertisement

【论文阅读】Stacked Cross Attention for Image-Text Matching

阅读量:

Stacked Cross Attention for Image-Text Matching

该系统设计采用了多种技术手段进行图像与文本之间的高效交互。具体而言,在系统架构中主要包含以下几个方面的核心技术:首先是对图像进行预处理以获取高质量特征;其次是对文本进行转数字表示过程;通过多层交叉注意力机制叠加实现信息融合的技术手段;最后实现了高效的图像到文本(image2txt)及文本到图像(txt2image)转换功能。

复制代码
  * 损失函数

* 实验结果

论文发布年份为:2018

介绍

作者的观点认为,在某种程度上说,“句子描述被视为弱标注”。这些单词对应于图片中的具体区域(但这些区域目前尚不明确)。通过识别视觉与语言之间的细微相互作用(即细腻的关系),以推断图像区域与句子之间的潜在联系(即深层的关系),这将有助于实现图像与文本更加易懂匹配的关键步骤。

在前期科研工作中,大多数图文匹配模型会在粗粒度层次上检测图片区域,并将所有可能的(图像区域与句子中的单词对)进行相似性计算以形成整体图像-文本相似性的推断.然而这会导致他们实际上忽略了单词的重要性可能受视觉语境的影响.

在本文中,作者将重要图像区域和关键单词作为上下文信息来推理图像文本之间的相似性,并采用多级交叉注意力机制进行区分度学习。具体而言,这一过程被划分为两个主要步骤:首先,在第一阶段中进行特征提取;其次,在第二阶段中进行特征融合与语义分析。

  1. 对于一个给定的图像和文本,在每个图像区域相关的句子中识别出相应的单词。
  2. 分析每个图像区域及其对应的句子中的单词信息,并由此推导出该图像区域的重要性。

同样地,在处理文本-图像对时(即),会首先将与每个单词相关的图像区域进行处理,并用来确定每个单词的重要性

方法

图像预处理

通过自下而上的注意力机制Faster-RCNN提取前36个重点图像区域,在每个区域i的特征上进行平均池化和全连接处理后得到编码v_i = W_i f_i + b_i。从而形成一个由这些编码组成的集合V = \{v_1, ..., v_k\}。其中k代表的是提取的重点图像区域的数量,并确定为36个。

文本预处理

考虑到单词w_i,我们通过嵌入矩阵计算出x_i=W_e w_i。随后采用双向GRU网络模型获取编码:e_i=\frac{\overrightarrow{h_i}+\overleftarrow{h_i}}{2}其中\overrightarrow{h_i}=\overrightarrow{\text{GRU}}(x_i)\overleftarrow{h_i}=\overleftarrow{\text{GRU}}(x_i)分别代表基于前向和后向传播得到的状态向量。这种设计使得双向GRU网络能够同时融合前后文信息(即不仅仅是单方向的信息),从而捕捉到更丰富的语义特征。最终生成文本序列E=\{\mathbf{e}_1,\dots,\mathbf{e}_n\}其中n表示单词的数量

堆叠交叉注意力机制

image2txt
  1. 分析各个区域与句子中各词之间的关联
  2. 判定图片区域内的重要性程度, 即判断该句子是否包含了这个区域

给定输入图像I及句子T,在检测与处理之后,图像I被划分为k个区域,并将句子T分解为n个单词。按照以下步骤执行后续操作。

  • stage1:使用余弦距离计算区域i和单词j的相似性,并进行正则化处理
    \qquad s_{i,j}=\frac{v_{i}^{T}e_{j}}{||v_{i}||||e_{j}||}
    \qquad \bar{s}_{ij}=\frac{[s_{i,j}]_{+}}{\sqrt{\sum_{i=1}^{k}[s_{i,j}]_{+}^{2}}},其中[x]_{+}\equiv max(x,0)

  • stage2:通过加权混合词向量的技术评估第i个区域在句子中的贡献度(即注意力系数),为此必须先确定注意力权重\alpha _{ij}这些权重衡量了区域i与各个单词j之间的关联程度
    \qquad \alpha _{ij}=\frac{\exp (\lambda _{1}\bar{s}_{ij})}{\sum_{j=1}^{n}\exp (\lambda _{1}\bar{s}_{ij})}
    \qquad a_{i}^{t}= \sum_{j=1 }^{n }\alpha _{ij }e_j

stage 3: 在获得了"贡献力度"这一指标后, 我们定义了该区域与句子之间存在的"关联度"R, 其计算方式为该区域与"注意力系数"之间的距离

stage4阶段中:整体图像与完整句子之间相关的程度可以通过LogSumExp函数进行计算或者采用平均化方法进行计算以获得最终结果

注意,stage1和stage2其实也就是注意力机制的一般步骤

可以说当下是以图像查找文本作为基础展开讨论。但若将其纳入注意力机制的通用框架中,则输入端source为单词序列(即Token序列),输出端target则对应于空间上的区域分布(即Grid分布)。具体而言,在注意力机制中:输出端target负责从输入端source提取关键信息并聚焦于重要位置;而image2txt模型的作用则是引导区域将焦点有选择地集中到这些关键的单词上。因此,在该模型中:目标域(target)对应的是空间上的区域分布(Grid),而源域(source)则对应于语言上的Token序列(Word Sequence)。

具体而言,在注意力机制中,相关性R被定义为区域与其贡献程度即注意力系数之间的距离。具体而言,在该模型中a_{i}^{t}相当于一个重组的文本编码(即其反映了与该区域有强烈相关性的单词)。在之前的实验中(即在之前的模型设计中), 区域与输入的文本编码求相似性(即cosine距离)。而现在(在此改进的版本中), 区域同样通过计算与文本编码的相似度来评估其相关性,并且在现有文本中(即在此模型中), 每个单词的重要性不再保持一致;相反地,在此模型中(相对于之前的设计), 那些与该区域具有较强关联性的单词重要性会得到显著提升。

txt2image

和image2txt是基本一致的,就是互换了一下位置

stage 1: 通过余弦距离计算区域 i 和单词 j 之间的相似程度,并经过正则化处理得到。
\qquad s_{i,j}=\frac{v_i^Te_j}{\|v_i\|\|e_j\|}
\qquad \bar{s}_{ij}= \frac{(s^+) _{ij}}{\sqrt{\sum^{} _{k=1 } ^n (s^+_ {ik})^2 }}, 其中(x)^+\equiv \max(x,0)

  • stage2:通过加权混合词向量模型能够获得第i个区域在句子中的重要性度量a_j^v及其本质上即为注意力机制。因此需首先确定各个位置之间的注意力权重\alpha_{ij};其中分子部分反映了位置间的相关性特征

  • stage3:基于注意力机制计算出的贡献度(注意系数),在stage3阶段中用于衡量该区域与其所关联的句子间的关联程度R,则用于衡量该区域与其所关联的句子间的关联程度R
    \qquad R(e_{j},a_{j}^{v})=\frac{e_{j}^{T}a_{j}^{v}}{||e_{j}||||a_{j}^{v}||}

  • stage4:在段落中可以通过LogSumExp函数或采用平均化策略来度量整个图片与整个句子之间的相关性
    \qquad S_{LSE}(I, T) = \log\left(\sum_{j=1}^{n}\exp\left(\lambda _{2}R(e_{j},a_{j}^{v})\right)\right)^{(1/\lambda_2)}
    \qquad S_{AVG}(I,T)=\frac{\sum_{j=1}^{n}R(e_{j},a_{j}^{v})}{k}

损失函数

采用三元组损失(Triplet Loss)作为衡量匹配模型性能的主要指标。其计算公式如下:对于每个正样本对(I, T)以及其对应的反样本\hat{T}\hat{I}, 其损失函数定义为l_{hard}(I,T)=\sum_{\hat{T}}[\alpha−S(I,T)+S(I,\hat{T})]_{+}+\sum_{{\hat{I}}}[\alpha− S(I,T)+S(\hat{I},T)]_{+}, 其中距离函数S用于衡量图像与句子之间的相似程度;^分别代表反样本图像和反样本句子;α设定为一个阈值参数。

在此处,在本文中,作者重新定义了这个损失函数。如下所示:l_{hard}(I,T)=[\alpha−S(I,T)+S(I,\hat{T}_{h})]_{+}+[\alpha− S(I,T)+S(\hat{I}_{h},T)]_{+}

在三元组损失函数中包含三个元素(Anchor, Positive, Negative),其中包括Anchor作为随机选取的一个样本;Positive属于与Anchor同类别的样本;Negative则是不同类别中的样本;该损失函数从而使得同一类别内的样本越来越接近彼此;当将其应用于图文匹配任务时;能够使图像与其对应的文本之间建立高度的相似性;而不会让不相关的文本与之产生关联;同样地,在将文本映射至图像的过程中也会遵循这一原则

实验结果

MS-COCO and Flickr30K datasets

MS-COCO

Flickr30K

通过可视化技术显示,在特定视图中使用红色方框标出需要关注的关键区域。这些区域中亮度越高,则注意力集中程度越强。观察者能够清晰地识别到具体实例如一个男孩(boy)、一项网球运动(tennis)以及一个网球拍(racket)等,并且能够观察到具体实例如一个男孩(boy)、一项网球运动(tennis)以及一个网球拍(racket)等。这些实例对应的属性如holding行为与young年龄特征相对突出明显。而属性如is与a则相对较为薄弱。这表明该模型具有良好的可解释性

全部评论 (0)

还没有任何评论哟~