Advertisement

Multimodal——Paper精读笔记:Improving Vision-and-Language Navigation with Image-Text Pairs from the Web

阅读量:

Enhancing Vision-language Integration through Optimized Use of Internet-based Image-text Correspondences.

关键字:BERT、迁移学习、预训练

文章简介

这篇文章参加了今年的ECCV(2020)会议,并获得了spotlight论文奖,确实非常出色。尽管仍然依赖于transformer这一传统基础,在自transformer提出以来(自从transformer提出以来),多模态领域就像是找到了一个突破性的方向,在各大会议上发表的文章数量显著增加。然而,在这些应用场景下还需要特别注意一些处理方法才能取得理想的效果。因此这篇论文依然值得推荐。

应用场景

相对而言使用transformer架构撰写文章较为容易且适合作为优质会议的探讨内容。核心难点在于选择一个合适的适用场景。具体来说,本文探讨的主题是基于语言导航系统的场景分析与应用研究。在基于语言导航系统的框架下,系统需要建立一种机制或方法来实现对描述性文本中的物体与其对应的现实世界视觉物体之间的关联。这要求模型具备从大规模标注数据中学习的能力。然而,在实际应用中获取具有相同语义背景且高质量标注的数据集仍然面临诸多挑战。目前互联网上提供了丰富的相关公开可用的数据资源,并且这些数据已经取得了一定程度上的标准化处理和质量保证工作。作者希望通过借鉴BERT模型在预训练阶段所采用的方法,在这些广泛可获得的大规模公开数据集中进行预训练工作,并结合有限数量的应用场景下的微调策略来优化模型参数配置。最终目标是在保持良好泛化能力的同时提升针对特定应用场景下的任务性能。

假设前提

在路径搜索问题上存在不同的场景假设,在我的研究中研究中的机器人被赋予了上帝视角其存储空间包含了房间内每个位置的三维全景图因此该机器人能够知晓房间内的所有通路信息在这种情况下模型的任务就是寻找到与给定导航指令最为契合的道路方案如下图所示。

Figure 1

可能存在的问题

Figure 2

涉及迁移学习的有效性问题是当前研究的重要课题。在两种数据领域之间存在显著差异性,在图2中可见,在网络中获取的图片与智能体实时捕获的图像相比具有明显优势:在图像质量上更加工整有序,在布局上更加合理有序;此外在美观度上也更具优势但在细节捕捉能力方面相对逊色于后者

模型介绍

这篇文章源自BERT模型的概念。通过网络上的海量相关数据对其进行预训练,在获得基本认知能力之后,经过预训练后,在较少的场景数据下进行微调以完成特定的任务。

首先是预训练过程,主要分为三个阶段:

本研究旨在通过覆盖性语言建模与下一语句预测框架实现强大的语言理解能力。基于预训练的BERT模型参数权重初始化语言流生成器,在此阶段完成后续路径选择任务类似于采用BERT编码器表示指令序列。

Stage2: Visual Grounding
主要基于VilBERT模型的预设权重参数进行初始化,在输入端接受文字描述以及图片中物体的位置信息作为输入特征。该方法通过结合mask语言建模任务与多模态对齐目标实现了更好的视觉理解能力。

Stage3: Action Grounding
在第三个阶段末期, 通过配对VLN路径与指令来建立关联, 并基于掩盖多峰的目标进行模型训练. 同时, 在上一个阶段我们学习了基础视觉概念, 而这一阶段我们将进一步向模型呈现动作及其基于轨迹的对象. 例如, 正确预测被掩盖的动作短语(如"turn _"或"stop at _")需要模型能够从视觉输入以及位置编码中推断出代理人的运动轨迹.

预训练过程

完成与训练任务之后,就要训练模型寻找最合适的路径。

在这里插入图片描述

在训练阶段中,在减少时间和空间资源需求的前提下,并非所有的训练任务都会采用相同的方式执行操作。具体而言,在所选的所有四个path中(即四个候选路径),其中仅有一条与导航指令相对应(即与导航语句具有匹配关系),其余三条则作为负样本处理(即未与导航指令匹配的对象)。模型接收两个输入序列:一个是图片信息序列(即图像数据),另一个是语言描述序列(即文本指令)。经过transformer层处理后得到了每个元素对应的表示向量,并基于此计算出各个路径与语言描述之间的匹配程度(即相似度分数)。随后根据样本来学习并优化模型参数以达到最佳性能效果)

在图像处理领域中,在这里进行图片信息表达时需要采用特殊的方法。这是因为对于这些图片而言,并非仅关注其内容属性;此外还需考虑其在空间中的位置与方向问题。因此,在描述运动轨迹时不仅要提取出物体的基本特征属性;还需额外添加物体在其所在位置的空间坐标参数以及方向信息参数。

在这里插入图片描述

实验结果

数据集:Matterport3D
任务:Room-2-Room(R2R)

在这里插入图片描述

左边列出了多种算法,在右边分别对应多种评价指标的基础上进行分析。基于NE、OSR和SR这三个指标的具体评估结果表明,在这些条件下VLN-BERT的表现都非常突出均位居当前最佳水平。然而基于PL这一指标的表现仍然保持良好但相对而言在SP这一标准下的结果则略显不足。

结语

这篇文献可被视为当前多模态应用领域的代表性研究。基于transformer架构的信息交互模型被普遍认为是当前研究的核心方向。然而该方法在计算资源上的消耗依然较大。尽管如此,在机制层面的具体作用机制以及所学到的知识体系尚待深入解析。因此仍需进一步的研究工作来系统分析其作用机理及优化方案。此外我们需要验证该算法是否能真正成为解决多模态问题的有效方案。

全部评论 (0)

还没有任何评论哟~