Dynamic Fusion with Intra- and Inter-modality Attention Flow for Visual Question Answering论文解读

阅读量：

1.引言

这一篇总结已经写好很久了,一直没时间发到博客里.是因为这篇我完全是按照公式去推理的,怕大家对很长很长的公式反感,所以一直没在博客里.
但是我觉得这篇论文的思想还是蛮重要的,(它提出的动态自注意力我觉得现在很多方向仍然可以使用!)因此本篇博客想从理论出发,用通俗的语言来解释每一个公式的含义.希望能够帮助到各位!
文章的引言和相关工作介绍了之前VQA的一些方法,从全局特征融合到局部特征是怎么玩儿呢,还有很多的注意力网络.如果感兴趣可以去原文看看!
论文地址
 参考博客

2.理论部分

2.0 方法总览图

2.1 特征提取部分

假设原始输入图片是V[3,448,448]，代表一张图片V，长和宽均为448，有三个通道。原始输入问题是Q[14]，代表一个问题Q，问题由14个词组成.
视觉那边特征提取用一个预训练好的FastRCNN。文本那边的词嵌入用预训练的Glove，特征提取用一个GRU。
$\begin{equation} R = FastRCNN(V) \in \mathbb{R}^{ \mu \times 2048} \end{equation}$
$\begin{equation} E = GRU(Glove(Q)) \in \mathbb{R}^{ 14 \times 1280} \end{equation}$
R代表原图上的 $\mu$ 个目标框，每个目标框用一个2048维的向量表示。E代表问题有14个单词，每个单词用1280维的向量表示。

2.2 模态间的co-attention(共同注意力)

首先要明确为什么做的是共同注意力而不是双线性融合里面的协同注意力，因为协同注意力只考虑文本对视觉的影响，而实际上视觉对文本也会产生影响，因此我们需要去做双向的注意力，也就是共同注意力机制。
我们以 $IterMAF_{R\leftarrow E}$ (模态间视觉注意力流)为例，来过一遍更新视觉特征的计算过程， $IterMAF_{E\leftarrow R}$ 同理。 $IterMAF_{R\leftarrow E}$ 是为了更新视觉特征，应该是用R作为查询，被查询对象是E。
$\begin{equation}%\quad是为了将它们两放在同一行！ R = \begin{pmatrix} R_1 \\ R_2 \\ \vdots \\ R_{\mu} \\ \end{pmatrix} \ , R_i\in \mathbb{R}^{1\times 2048} \quad , E = \begin{pmatrix} E_1 \\ E_2 \\ \vdots \\ E_{14} \\ \end{pmatrix} \ , E_i\in \mathbb{R}^{1\times 1280} \end{equation}$
$\begin{equation} R_Q = \begin{pmatrix} R^Q_1 \\ R^Q_2 \\ \vdots \\ R^Q_{\mu} \\ \end{pmatrix} = \begin{pmatrix} R_1W^R_Q \\ R_2W^R_Q \\ \vdots \\ R_{\mu}W^R_Q \\ \end{pmatrix} = \begin{pmatrix} R_1 \\ R_2 \\ \vdots \\ R_{\mu} \\ \end{pmatrix}W^R_Q = RW^R_Q \in \mathbb{R}^{\mu \times dim} \end{equation}$
$\begin{equation} E_K = \begin{pmatrix} E^K_1 \\ E^K_2 \\ \vdots \\ E^K_{14} \\ \end{pmatrix} = \begin{pmatrix} E_1W^E_K \\ E_2W^E_K \\ \vdots \\ E_{14}W^E_K \\ \end{pmatrix} = \begin{pmatrix} E_1 \\ E_2 \\ \vdots \\ E_{14} \\ \end{pmatrix}W^E_K = EW^E_K \in \mathbb{R}^{14 \times dim} \end{equation}$
$\begin{equation} E_V = \begin{pmatrix} E^V_1 \\ E^V_2 \\ \vdots \\ E^V_{14} \\ \end{pmatrix} = \begin{pmatrix} E_1W^E_V \\ E_2W^E_V \\ \vdots \\ E_{14}W^E_V \\ \end{pmatrix} = \begin{pmatrix} E_1 \\ E_2 \\ \vdots \\ E_{14} \\ \end{pmatrix}W^E_V = EW^E_V \in \mathbb{R}^{14 \times dim} \end{equation}$
em…,公式有点懵嘛?别走!坚持一下,听我解释解释.

Eq(3)的主要目的是为了写一下 $R_i$ 和 $E_i$ ， $R_i$ 表示原图上的一个框框的特征向量， $E_i$ 表示原文本第i个单词的向量表示(这里是为了大家能懂才这么解释,实际上 $E_i$ 代表的仅仅是一个词级别的特征,不过都不重要,先按我这么理解着)。

Eq(4)-Eq(6)都是注意力机制那块的东西。Eq(4)代表视觉特征的查询，Eq(5)和Eq(6)是被查询对象E的key和value。

其中 $R\in \mathbb{R}^{\mu \times 2048}$ , $E \in \mathbb{R}^{14 \times 1280}$ . $R^Q_i \in \mathbb{R}^{1\times dim}$ 是代表 $R_i$ 的查询向量 , $W^R_Q \in \mathbb{R}^{2048\times dim}$ . $E^K_i \in \mathbb{R}^{1\times dim}$ 是代表 $E_i$ 的被查询向量 , $W^E_K \in \mathbb{R}^{1280\times dim}$ . $E^V_i \in \mathbb{R}^{1\times dim}$ 是代表 $E_i$ 的值向量 , $W^E_V \in \mathbb{R}^{1280\times dim}$ .

下面开始计算新的 $R_1$ ，其余新的 $R_i$ 计算同理，具体计算过程如下：

Step1：计算 $E_i$ 与 $R_1$ 的注意力分数
$\begin{equation} \left\{ \begin{aligned} \alpha^R_{11}& = Softmax(\frac{R^Q_1(E^K_1)^T}{\sqrt{dim}}) \\ \alpha^R_{12}& = Softmax(\frac{R^Q_1(E^K_2)^T}{\sqrt{dim}}) \\ \vdots \\ \alpha^R_{1,14}& = Softmax(\frac{R^Q_1(E^K_{14})^T}{\sqrt{dim}}) \end{aligned} \right. \end{equation}$
Step2：计算新的 $R_1$ ，新的 $R_1$ 定义为 $R^{update}_1$
$\begin{equation} R^{update}_1 = \sum_{i=1}^{14}\alpha^R_{1i}E^V_i \ \in \mathbb{R}^{1\times dim} \end{equation}$
重复Setp1到Step2，可以得到： $R^{update}_i , i=2,3,...,\mu$ ，记：
$\begin{equation} R_{updata} = \begin{pmatrix} R^{update}_1 \\ R^{update}_2 \\ \vdots \\ R^{update}_{\mu} \\ \end{pmatrix} \ \in \mathbb{R}^{\mu \times dim} \end{equation}$
然后原论文说：将原来的 $R$ 与 $R_{updata}$ 拼接，可以得到一个 $\mu \times (2048+dim)$ 的张量，然后再经过一个线性映射得到更新后的R。
$\begin{equation} R = concat(R,R_{update})W_R \ \in \mathbb{R}^{\mu \times 2048} , W_R \in \mathbb{R}^{(2048+dim)\times 2048} \end{equation}$
然后再用这个更新后的R，作为被查询对象，一样的步骤，去得到更新后的E。这里可以自己推一下，我们就不写了！然后得到更新好的R与E，可以理解为R中的视觉信息受到了文本信息的约束，E中的文本信息受到了视觉信息的影响，其实说白了就是两者都有了对方的信息。

2.3 动态模态间的自注意力流

首先解释一下什么是自注意力流，上一节说过新的R与E会作为本小节的输入，那么自注意流就是R与自身做注意力，E也与自身做注意力。(我们叫Eq11为朴素模态内信息流)
实际上用公式刻画就是：
$\begin{equation} R = Softmax(\frac{R_QR^T_K}{\sqrt{dim}})R_V \ ,\ E = Softmax(\frac{E_QE^T_K}{\sqrt{dim}})E_V \end{equation}$
若是上面这种朴素的模态内信息流，只是单纯利用模态内的信息来估计区域到区域和词到词之间的相似度，它所确定的区域与区域之间的关系永远都是一样的 ，词与词之间的关系也是永远一样的，所以有些很重要的关系只能通过来自另一模态中的信息来确定，例如，即使对于相同的输入图像，不同的视觉区域对之间的关系也应该根据不同的问题具有不同的权重。因此作者提出来一种动态的模态内注意流，用于基于另一模态的信息来计算模态关系的重要性。（也就是说，即使是模态内的自注意，也不纯粹是模块内的，而是动态的，收到另一模态约束的）

它所确定的区域与区域之间的关系永远都是一样的 ，这句话的意思是说：假设我现在图片的内容是一个人正在滑滑板，然后滑板是一个区域，滑板上面的人是一个区域，背景(雪)是一个区域，然后如果是朴素的自注意力，那么人和滑板之间的关系程度可能为0.6，滑板和背景的关注程度可能为0.3，因为毕竟只是做了区域与区域之间的相似度它不会非常细节的考虑到滑板与背景之间的关系。而如果加了一个外部条件(问题)就可以改变它们之间的关注程度(这就叫动态)：这个人在什么地方滑滑板？那这样的话再去做自注意力的时候，就有了问题的限制，从而自注意力会更加关注滑板与背景之间的关注程度，这就是所谓的动态自注意力！一句话说：可以根据条件的限制来改变对各个区域的关注度。

为了解释自注意力和动态自注意力，我搞了一张图：可以再次根据图去理解一下。
在这里插入图片描述
有了上面的解释，下面的内容应该好理解了。那现在：如果我想去更新视觉区域，我应该同时用一个文本来限制我的更新视觉区域的注意力。

以更新视觉，文本做限制为例。假设上面通过模态间共同注意力得到的新的视觉特征记为R，得到新的文本特征记为E，其中 $R \in \mathbb{R}^{\mu \times 2048} , E \in \mathbb{R}^{14\times 1280}$ 。

Step1：
将文本特征沿着词维度进行平均池化，得到一个向量q， $q\in \mathbb{R}^{1\times 1280}$ 。然后再将q做两个线性变换(这个目的是为了与后面 $R_Q,R_K,R_V$ 的维度匹配)，然后再加上一个Sigmoid层进行非线性激活，这个过程下来得到的结果记为： $G_E \in \mathbb{R}^{\mu \times \dim}$ ，相当于一个限制特征，原文里面叫做通道调节门。这个流程我也画了个图,方便大家理解!
在这里插入图片描述
Step2： 将限制放到查询和被查询对象上，如下：
$\begin{equation} \hat{R_Q} = (1+G_E)\cdot R_Q \ , \ \hat{R_K} = (1+G_E)\cdot R_K \end{equation}$
（Eq12的本质意思是：我的视觉查询也应该收到文本的限制,视觉key也一样.但是注意!这里视觉的value还是原来的value）

$R_Q$ 和 $R_K$ 和 $R_V$ 和前面的一样，是共享的。然后 $\cdot$ 是逐元素乘法，em在latex里面我没有找到那个符号，暂时用这个符号代替哈！然后解释一下为什么 $G_E$ 要加上1：原本没讲，但个人猜测是为了尽量减少问题的先验而产生的误判，从而提升后验正确率的提升。

Step3： 计算 $R_{update}$
$\begin{equation} R_{score} = Softmax(\frac{\hat{R_Q}(\hat{R_K})^T}{\sqrt{dim}}) \in \mathbb{R}^{\mu \times \mu} \end{equation}$
$\begin{equation} R_{update} = Softmax(\frac{\hat{R_Q}(\hat{R_K})^T}{\sqrt{dim}})R_V \in \mathbb{R}^{\mu \times dim} \end{equation}$

Step4： 残差连接作为最后的输出
$\begin{equation} R = (R + R_{update}W_{up}) \ \in \mathbb{R}^{\mu \times 2048} \end{equation}$

其中 $W_{up} \in \mathbb{R}^{dim\times 2048}$

然后再用同样的方式去得到动态自注意力更新后的E即可。这里要特别提醒一下看原论文的同学，原论文的公式16我觉得是写错了，应该为：
在这里插入图片描述
最后的最后,把模态间的co-attention和模态内的动态self-attention二者作为一个模块,堆叠起来就可以了.堆叠的方式可以选择Stacking或者Encoder-Decoder,都可以(原文用的是Stacking)。

3. 写在最后

制作不易！如果对您有帮助请动动您发一区的小手点个赞吧~
如果转载本篇博客需征得本人的同意,盗者必究!

全部评论 (0)

还没有任何评论哟~

Dynamic Fusion with Intra- and Inter-modality Attention Flow for Visual Question Answering论文解读

1.引言这一篇总结已经写好很久了,一直没时间发到博客里.是因为这篇我完全是按照公式去推理的,怕大家对很长很长的公式反感,所以一直没在博客里. 但是我觉得这篇论文的思想还是蛮重要的,它提出的动...

Dynamic Fusion with Intra- and Inter-modality Attention Flow for Visual Question Answering

文章目录 1介绍 1.1介绍各种融合模型的发展 1.2介绍提出的DFAF模型 1.3介绍DFAF模型创新点 2相关工作 3DynamicFusionwithIntraandIntermodalityA...

Dynamic Fusion with Intra- and Inter-modality Attention Flow for Visual Question Answering 心得体会

近日研读了一篇文章，题目：《DynamicFusionwithIntraandIntermodalityAttentionFlowforVisualQuestionAnswering》这篇文章是CVP...

多模态融合(五)Dynamic Fusion with Intra- and Inter-modality Attention Flow for Visual Question Answering

背景本篇论文的工作来自香港中文大学。研究内容是VQA 摘要学习有效地融合多模态特征是视觉问题回答的核心。本文提出了一种动态融合模态内、模态间信息流，即在视觉模态和语言模态之间传递动态信息的新方法。...

Multi-modality Latent Interaction Network for Visual Question Answering论文解读

目录一、文章简介二、模型概要三、多模态潜在交互网络模型 3.1.问题与视觉特征编码 3.2.ModalitySummarizationsinMLIModule 3.3.RelationalLea...

Relation-Aware Graph Attention Network for Visual Question Answering论文解读

这篇论文的工作不同于现有的VQA系统（并与之兼容）。它以一个新的维度为中心：使用问题自适应的对象间关系丰富图像表示，以提高VQA性能。主要有三方面的贡献： 1、我们提出了一种新的基于图形的关系编码器，...

【论文阅读笔记】Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering.

BottomUpandTopDownAttentionforImageCaptioningandVisualQuestionAnswering. 2018CVPR P.Anderson,X.He,C....

用于视觉问答的具有模态内和模态间注意力的动态融合模型《Dynamic Fusion with Intra- and Inter-modality Attention Flow for VQA 》

目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论本文有点长，请耐心阅读，定会有收货。如有不足，欢迎交流，这篇文章和上篇文章，有着相同的构思，请参考上篇文章。

论文笔记：Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

论文链接：BottomUpandTopDownAttentionforImageCaptioningandVisualQuestionAnswering BottomUpAttentionModel ...

论文-《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering 》笔记

重点翻译拓展论文下载主题：我们提出将自顶向下和自底向上的注意力机制融合起来，从对象层面计算图像的显著区域。正文： 1.新方法的概要过程：自底向上机制（基于FasterRCNN）提取图像区域，...

是否确定退出登录?

Dynamic Fusion with Intra- and Inter-modality Attention Flow for Visual Question Answering论文解读

1.引言

2.理论部分​​

2.0 方法总览图

2.1 特征提取部分

2.2 模态间的co-attention(共同注意力)

2.3 动态模态间的自注意力流

3. 写在最后

全部评论 (0)

相关文章推荐

Dynamic Fusion with Intra- and Inter-modality Attention Flow for Visual Question Answering论文解读

Dynamic Fusion with Intra- and Inter-modality Attention Flow for Visual Question Answering

Dynamic Fusion with Intra- and Inter-modality Attention Flow for Visual Question Answering 心得体会

多模态融合(五)Dynamic Fusion with Intra- and Inter-modality Attention Flow for Visual Question Answering

Multi-modality Latent Interaction Network for Visual Question Answering论文解读

Relation-Aware Graph Attention Network for Visual Question Answering论文解读

【论文阅读笔记】Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering.

用于视觉问答的具有模态内和模态间注意力的动态融合模型《Dynamic Fusion with Intra- and Inter-modality Attention Flow for VQA 》

论文笔记：Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

论文-《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering 》笔记

2.理论部分