Advertisement

【多模态】《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》论文阅读笔记

阅读量:

一、概述

本文不仅涉及图像描述(image caption),还涵盖了视觉问答(VQA)技术。因此,在介绍模型的优势与框架架构之后,文章将详细阐述其在图像描述(image caption)与视觉问答(VQA)领域的建模过程。

多模态

而该文中所述的图像区域并非特征图(feature map),而是基于Faster R-CNN识别出的目标边界框(target bounding box)

所以本文的核心贡献在于:设计了一种集成化的自下而上与自上而下注意机制,在不同层次维度上有效实现注意力计算能力。其中,在自下而上的模块中(基于Faster R-CNN),通过多级卷积神经网络提取并融合图像空间特征信息;而在自上而下的模块中,则结合全局上下文信息动态分配各层感知器的不同权重系数

特别指出,在本文中对两种不同的注意力机制进行了明确区分:一种是由非视觉或特定任务相关因素所驱动的"上层"型注意力机制(即"自上而下"),另一种则是完全依赖视觉信息且呈前馈传播的"下层"型注意力机制(即"自下而上")。

基于高层级的视觉注意力机制在图像字幕和VQA(视觉问答)领域中占据主导地位。
这些机制通过将部分完成的文字提示表示与相关的图像问题作为上下文输入。
这些机制通常被训练为能够聚焦卷积神经网络 (CNN) 的某一层或多个层的输出。
然而,在这种机制中往往忽视了如何确定所关注的具体图像区域。
此外,在平衡粗略与精细细节水平时难以确定最佳的关注区域数量。

在本文中

无论是基于 feature map 的 attention 还是 bounding box 的 attention 均接受输入为一个可变尺寸 k 的图像特征集合 V = {v1, …, vk}, 其中 vi ∈ R^D。这些特征用于代表各自显着区域的信息。空间信息 V 既可以由自上而下的注意力机制生成;也可以采用常规方法通过卷积神经网络的空间输出层提取。

二、Bottom-Up Attention Model

在该研究中,我们将Faster R-CNN与ResNet-101 CNN进行整合应用。通过模型提取特征后,在每个目标类别上施加IoU阈值以实施非最大值抑制处理。随后我们筛选出所有检测概率超过置信度阈值的区域,并对每个选定区域i定义其特征表示为该区域平均池化后的卷积结果向量Vi。此方法得以实现'硬'注意力机制的效果,在于它能够有效识别并利用有限数量的关键图像边界框特征来完成任务。

三、captioning model

对于图像特征集合 V 来说,在生成过程中为每个特征分配权重的“软”自上而下注意力机制被采用。该模型通过现有的部分输出序列作为背景信息来辅助生成。

模型结构为:

请添加图片描述

在每个时间步骤中,在每个时间步中,在每一个时间步骤中,在每个时间段内,在每一个时间段内,在每个时间段内

请添加图片描述

基于注意力的 LSTM 输出结果为 h^1_t ,对于每一个时间步 t ,我们通过计算每个 k 个图像特征 v_i 的归一化权重 \alpha_{i,t} 来关注其重要性程度 ,具体如后所展示

请添加图片描述
请添加图片描述

四、VQA model

VQA模型和image caption模型大体上是相似的。

首先将每个问题通过门控循环单元(GRU) 编码为隐藏状态 q,并采用学习生成的词嵌入向量对每个输入词进行表示。类似于等式 3 中的做法,在给定 GRU 输出 q 的情况下,针对 k 个图像特征 vi ,我们对每一个生成一个未归一化的注意力权重 ai ,后续计算中会进行归一化处理。

请添加图片描述

全部评论 (0)

还没有任何评论哟~