论文:Real-Time Referring Expression Comprehension by Single-Stage Grounding Network
作者

摘要
本研究提出了一种新型端到端模型——单阶段定位网络(SSG),旨在通过单一阶段直接定位图像中给定的指代表达。与以往多阶段模型依赖于对象建议框或检测区域不同的是我们提出的模型旨在通过单一阶段直接理解指代表达而非依赖于区域建议框及随后的区域特征提取。具体而言我们引入了一种多模态交互器以聚焦于指代表达的关注局部区域特征并随后提出了一个定位器直接将指代表达在图像中定位出来以进一步提高定位精度我们还引入了指导注意力机制迫使定位器聚焦于指代对象的核心区域从而提升模型性能此外我们利用并预测视觉属性信息使能进一步区分图像中的指代对象从而提高模型性能实验结果表明在RefCOCO RefCOCO+以及RefCOCOg数据集上我们的SSG无需依赖任何区域建议框即可实现与现有先进模型相当的性能并且我们的SSG在ReferItGame数据集上超越了之前的模型并实现了最先进水平的同时我们的SSG在时间效率上也表现出色能够在Nvidia Tesla P40上平均用时25毫秒处理416×416图像中的约9个指代表达完成任务比现有多阶段模型快出一筹
本文提出了一种新型端到端模型被称为Single-Stage Grounding network (SSG)它专为将引用对象定位在图像中的给定引用表达式位置而设计。与基于object proposal或detected region的传统多阶段模型不同我们的模型旨在通过单一阶段实现对引用表达式的理解无需依赖region proposals以及后续的区域特征提取 process. 具体而言我们引入了一种多模态交互器以详细总结了指称表达所涉及的局部区域特征随后我们开发了一种直接定位引用对象的方法。为了进一步提高定位精度我们设计了一种引导注意机制使grounded目标能够聚焦于周围的核心区域此外通过利用和预测视觉属性信息grounded能够更精准地区分图像中的参考对象从而显著提升了整体性能. 在RefCOCO RefCOCO和RefCOCOg数据集上的实验表明我们的SSG完全独立于任何region方案却能够达到与现有先进模型相当的表现并且相对于之前的系统SSG表现更为出色并在ReferItGame竞赛中取得了最新的成绩. 此外我们的SSG在时间效率上具有显著优势能够在平均25毫秒每秒40个referents的速度下使用Nvidia Tesla P40处理RefCOCO数据集中的416×416图像建立引用表达式较现有的多阶段系统实现了近十倍的速度提升.
Introduction

Referring expression comprehension[32,33,34,35],也称为referring expression grounding,是一个基础研究问题,受到计算机视觉和自然语言处理研究界越来越多的关注。给定一个图像以及一个引用表达式,该表达式描述图像中的特定引用对象,引用表达式理解的目的是定位与引用表达式语义对应的引用对象。这是一项具有一般目的但极具挑战性的视觉 语言任务,因为它不仅需要参考对象的本地化,还需要对参考对象和关系(如图1中的“左”)进行高级语义理解,以帮助区分同一图像中正确的参考对象和其他不相关的参考对象。
如图1(a)所示,先前的参考表达理解模型可被视为包括三个阶段的多阶段方法[7,14,16,24,32,33,34,35]。首先,传统的对象建议生成方法(如EdgeBox[36]、选择性搜索[28])或现成的对象检测器(如更快的R-CNN[23]、SSD[12]和掩码R-CNN[4])用于提取一组区域作为匹配参考表达式的候选区域。其次,卷积神经网络(CNN)[26,27]和递归神经网络(RNN)[2,5]分别用于对图像区域和参考表达式进行编码。最后,设计了一个排序模型,选择匹配得分最高的区域作为参照。这些多阶段模型在指称表达理解任务的相关数据集上取得了显著的成绩[32,34,35]。
然而,这些多阶段模型在计算上非常昂贵,每个阶段都要花费大量时间,特别是区域建议生成和区域特征提取,如表3所示。因此,这些模型不适用于具有实时性要求的实际场景。因此,这一新的挑战激励并激励我们设计一个基础模型,该模型能够有效地定位图像中的参照物。为此,在本文中,我们提出了一种单级接地网络(SSG),以实现实时接地效果以及良好的性能,而无需借助区域方案。更具体地说,如图1(b)所示,我们的SSG模型由三个组件组成,即多模态编码器、多模态交互器和引用表达式引导器。利用多模式编码器(第3.1节)分别对给定图像和引用表达式进行编码。多模态交互者(第3.2节)旨在仔细总结以文本表示为条件的图像局部表示。最后,基于联合表示,引用表达式grounder(第3.3节)负责直接预测与引用表达式对应的边界框的坐标。除了边界盒回归损失外,还引入了另外三个辅助损失,以进一步提高SSG的性能。它们是信心分数损失(第3.3.1节),反映边界框的准确性;注意力重量损失(第3.3.2节),通过使用地面真实边界框的中心点作为目标,强制地面关注有用区域;以及属性预测损失(第3.3.3节)有利于区分同一图像中的参照物。因此,我们提出的SSG在一个单独的阶段中执行,以处理指称表达理解任务,从而导致可比的模型性能以及比现有多阶段模型多9倍的加速。
总之,我们工作的主要贡献如下:
- 我们开发了一种新型单级接地网络(SSG),作为处理指称表达式理解任务的关键组件。该网络能够直接预测图像中与指称表达式相对应的目标边界框位置,并无需依赖区域建议。
- 为了增强目标定位精度,在SSG中引入了基于物体中心偏好的引导注意力机制。此外,在视觉属性分析的基础上进一步优化了模型性能。
- 该系统展现出显著的应用潜力。实验数据显示,在相同的硬件条件下其识别速度较现有方法提升了8至9倍的同时保持了与最新基准方法相当的识别精度。
Related work
2.1. Referring Expression Comprehension
理解指称表达的任务是在给定图像中定位指称对象的任务,并且这些图像在语义上对应于给定的指称表达式。这项任务需要理解和建模多种空间环境信息,包括空间结构[14,33]、属性[11,32]以及区域之间的关系[16,33]。在之前的文献中,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况
2.1 Object detection
我们的SSG方案得益于当前最先进的目标检测技术。具体而言,它包括最新的三个主流实现版本: YOLO[20], YOLO-v2[21]以及YOLov3[22].其中, YO洛v1算法将输入图像划分为7×7个网格单元,并直接预测多个类别及其边界框的位置.与前一代如Yolo v1(即Yolo [
Architecture
基于一个图像I及其引用表达式E=\{e_t\}^T_{t=1},其中e_t表示第t个单词(t为单词总数),我们的研究旨在实现参考语义理解的目标:即识别并定位图像I中的特定子区域I_b(即与参考语义相对应的区域)。为此,我们提出了一种新型无region proposal模型(即SSG架构),该模型专为reerring expression comprehension任务设计。如图2所示,在该架构中,SSG模型被构建成一个单阶段解决方案:它由三个关键组件构成:首先是对多模态特征进行编码;其次是对多模态特征进行交互整合;最后是对引用语义进行约束与定位。具体而言,在第一阶段中,多模态编码器分别对图像内容以及引用表达式进行编码处理以获取视觉编码器输出与文本编码器输出;第二阶段中通过多模态交互机制实现特征融合与语义关联;第三阶段则由语义grounding模块负责根据上下文信息确定目标边界框的位置。
3.1. Multimodal Encoder
SSG中的多模态编码器负责生成输入数据的语义表示,具体而言是图像与文本内容,并在图2中进行展示。
3.1.1 Image Encoder
我们采用了新型CNN架构——YOLO-v31[22]——在MSCOCO-LOC数据集[10]上预先进行了训练,并将其作为图像编码器应用。具体而言,在输入的过程中,我们将给定的图像进行调整以满足3×416×416的要求,并将其输入到编码器网络中进行处理。经过计算得到的结果表明,在第58层卷积操作后产生的输出向量s=\{s_n\}_{n=1}^{N}(其中每个s_n∈\R)能够有效地反映图像中不同局部区域的独特特征表示。基于YLO-v3模型的设计理念,在该系统中每个s_n都被定义为一个维度为size D_I=1024的空间向量,并且总共有N=169个这样的空间单元用于全面捕捉图像细节信息。
3.1.2 Text Encoder
假设我们有一个引用表达式E=\{e_t\}^T_{t=1},其中e_t表示第t个词。在这个研究中,默认情况下每个词均需借助当前最先进的高级词嵌入模型进行初始化(如Word2Vec[15]、GloVe[18]以及ELMo[19])。为了提高编码效果,在本研究中我们采用了基于5.5B tokens数据集预训练的EMLo模型。随后我们将生成相应的词向量序列\{w_t\}^T_{t=1}, 其中每一个元素满足w_t∈ \R^{D_w}, 这里的Dimension大小设定为D_w=3072. 接下来我们将每一个词向量依次输入到RNN编码器中进行处理, 从而生成固定长度的语义向量作为其文本特征表示。
为了更好地捕捉词语间的长期依赖关系, 我们采用了长短期记忆单元(LSTM)[5]以及专门设计的通断机制作为RNN单元来进行编码操作。此外, 双向LSTM(Bi-LSTM)[25,32]能够同时捕获词语的历史信息以及未来上下文信息, 这种方法较传统LSTM及RNN更具优势性。
在此研究中, 文本编码器是通过将两个Bi-LSTM层堆叠起来实现的, 其中每一层的hidden大小设定为H=512. 在初始状态设置上选择了全零状态以避免偏差影响。
因此最终参考表达式的语义表示是通过连接两个堆叠层正向输出与反向输出所得到的结果

其中h_T^{(1,fw)}和h_T^{(2,fw)}分别代表Bi-LSTM网络的第一层与第二层的forward方向输出结果;而h_T^{(1,bw)}与h_T^{(2,bw)}则分别代表其相应的backward方向输出结果;此外,在公式中v_E∈\mathbb{R}^{D_E}且其维度大小为D_E=2048时,则可理解为最终提取得到的文本特征向量。
3.2. Multimodal Interactor
基于提取的局部视觉特征s及其对应的文本表达式v_E的基础上开发了一种多模态交互系统,该系统旨在深入分析并整合这些特征间的复杂关联。具体而言,通过自注意力机制[29]对各子区域s=\{s_n\}_{n=1}^N进行编码融合,能够有效生成具有语义相关性的全局视觉表示v_I∈\R^{D_I},其取值依赖于输入文本所包含的关键信息v_E∈\R^{D_E}:

以符号f_{att}表示注意机制。函数\alpha(s_i, h_T)关联地确定了第i个视觉局部特征s_i与目标表征v_E之间的关注权重。这些权重值通过多层感知机(MLP)进行计算。

该注意机制使得每个局部视觉元素能够与其对应的指称表达产生互动关系。进而这些局部视觉元素被整合在一起形成统一的聚合上下文。最后通过融合这些聚合的语境特性和文本信息即可构建图像与参考描述式的联合表示v_{I,E}∈\R^{D_{I,E}}。

在本研究中,dimension size被设定为D_{I,E}=3072。基于v_{I,E}这一特征向量,我们开发出一种新的referring expression grounder来确定引用表达式的图像区域。
Discussion
请注意我们的多模态交互器与GroundR[24]中的最大注意机制存在显著区别。随后利用选择性搜索算法或EdgeBoxes框架提取出GroundR中的局部注意力区域,并通过VGG[26]模型进行特征编码工作。与此同时来自文献[32]的"框内"注意力机制则被用于精确识别与目标相关的区域以避免因辅助引导机制而导致的信息丢失问题(参考第3.3.2节)。
3.3. Referring Expression Grounder

如图2所示,Referring Expression Grounder由三个关键组件组成:定位模块、引导注意机制以及属性预测模块。我们首先详细阐述了该定位模块的设计与实现过程——该模块基于参考点的真实坐标信息进行训练,并通过深度学习算法精确识别目标物体的边界框位置及其置信度得分。随后,在此基础上引入了引导注意机制,并结合属性预测模块协同工作——通过巧妙地提取图像中的潜在特征信息,并结合引用表达式的信息辅助定位过程的优化,在提升定位精度方面取得了显著效果。
Localization
基于联合表示v_{I,E}的方法被用来预测图像I中的参考区域,并由边界框b_{pred}所反映其对应的参考表达式E。如图2所示,在经过一个带有3072个滤波器和跨距1×1的卷积层之后紧接着再加入一个带有5个滤波器和步长1×1的卷积层,并随后应用sigmoid函数以输出坐标信息\{t_x,t_y,t_w,t_h\}以及预测边界框b_{pred}的信任值t_c。这里所指的卷积层不仅执行卷积操作还包含激活函数Leaky ReLU[13]的作用机制
Coordinates
这些坐标都是介于0至1之间的数值,并与其所对应的图像宽度及高度相关联。更详细地说,在目标检测任务中常用的一种表示方法是通过边界框中心点的位置以及边界框大小来描述物体的位置信息。其中参数t_x和t_y分别表示边界框中心点相对于图像左上角的比例位置坐标(即左上角坐标的x轴方向和平移比例),而t_w和平移比例)。为了强调在较大包围盒中出现的小偏移量比在较小包围盒中出现的小偏移量更为重要(类似地参考文献[20]中),我们推测包围盒4宽度与高度应取其平方根而非实际尺寸。由此将计算预测边界框中心点的位置以及边界框大小参数

其中p_w与p_h分别代表输入图像的宽度与高度。\{b_x, b_y\}、b_w及b_h各自代表预测边界框b_{pred}的左上角坐标及其宽度与高度。在训练过程中,采用均方误差(MSE)作为优化目标:

其中,\hat{b}_x、\hat{b}_y、\hat{b}_w、\hat{b}_h是地面真值边界框 b_{gt}的坐标信息。
Confidence Score
正如前述段落所示,在定位模块之后除了坐标信息之外还生成了一个置信度评分\hat{b}_c用于表征预测框的质量评估在评估过程中如果预测边界框与真实边界框之间的交并比(IoU)超过预设阈值η则该预测结果被视为正确的判断自然地我们将这个置信度评分转化为一个二元分类问题而不是像YOLO[20]那样采用回归方法因此我们定义目标置信度评分\hat{b}_c为

关于置信度得分的目标函数定义为二元交叉熵:

请注意注意关于置信度得分的目标函数与文献[20,21]中的定义有所不同该差异被视作一个回归问题具体表现为以下公式:Pr(b_{gt})∗IoU(b_{pred},b_{gt})其中当单元格内存在目标物体时变量Pr(b_{gt})被设定值为1否则其值设为0
3.3.2 Guided Attention

为了进一步提升grounding准确性, 我们提出了一种引导注意机制, 以促进模型更加关注正确参照物的中心区域. 如前所述, 在3.2节中, 我们引入了一组注意力权重α={α_n}^N_{n=1}, 其中α_n∈ℝ. 每个视觉局部特征均与其对应的文本特征相关联, 表示其与引用表达式的关联程度. 我们发现存在一条潜在信息即object center bias[1], 这一点我们可以加以利用. 参考物中心区域的真实边界框中心点应赋予最大的注意力权重, 因为该区域所包含的视觉特征对于构建参考表达的基础更为关键. 如图3所示, 首先通过真实边界框确定中心点的位置, 并将其编码为one-hot向量作为one-hot标签\hat y, 这意味着只有在参考物中心点所在区域单元被标记为1, 其余所有单元则被标记为0. 将该中心点坐标重新缩放到注意力权重图的尺寸后, 其计算公式如下:

参考第3.1.1节的相关内容可知。首先关注权重图及其对应的输入图像尺寸(分别为[H\times W, C])。从而确定放大倍率设为H\times W / C。以交叉熵损失函数为目标函数评估视觉注意力权重与预测one-hot标签\hat{y}之间的差异。

其中\hat{y}_i代表标签向量\hat{y}的第i个元素。其中N代表注意权重的数量,并计算得出其值为13×13=169。这种辅助损失有助于模型区分目标区域与其他区域,并促进模型将注意力集中在关键信息上以提高边界框检测精度。
3.3.2 Guided Attention
此外,在多模态场景中视觉属性常被用来区分同一类别中的不同参考对象并展现出显著的效果例如图像字幕[8 30 31] 视频字幕[17]以及参考表达理解[11 32][8-]. 受先前研究[32] 的启发 我们引入了一个属性预测模块以便进一步提升grounder 的性能.

其中,在计算每个属性的重要性时使用公式w^{attr}_i=1/\sqrt{freq_{attr}}来平衡不同属性的权重。每当引用表达式中的第i个位置出现一个具体或隐含的属性词时,在输出结果\hat {y}_i的位置上就设为1;否则就设为0。在训练过程中,在处理包含特定信息的样本时会根据输入特征自动调整模型参数;而对于未包含任何关于目标变量的信息的数据实例,则会将其视为无信息样本并赋予其零损失值。
3.4 Training Object
一个训练样本包含三个关键元素:图像数据、引用表达式和边界框标注。SSG模型旨在通过以下四种损失项的加权总和来优化其目标函数。

Inference
在推理阶段中,唯有定位模块具备预测与引用表达式相关联的边界框的能力.而引导注意与属性预测模块目前处于被禁用的状态.针对一个给定的图像及其相应的引用表达式,这些组件之间实现了完全耦合,在单一阶段共同推导出边界框BPREDIN.因此,在引用表达式理解效率方面相比现有分段式的多阶段模型而言,我们的SSG表现更为突出,这将在后续章节中得到详细阐述.
Experiment



Conclusion
In this paper, we introduced an innovative grounding mechanism called Single-Stage Grounding network (SSG) aimed at directly localizing referents in images corresponding to referring expressions without using region proposals. To guide multi-modal interaction agents to focus on useful regions for grounding, we developed a guided attention loss based on object center-bias. Furthermore, incorporating attribute prediction loss consistently enhanced our model's performance. Experiments conducted across four public datasets demonstrated that our SSG model achieved favorable results, notably outperforming existing models on the ReferItGame dataset. Notably, our model is designed for efficiency and can process an average of 40 referents per second on the RefCOCO dataset.
在本文中,我们提出了一个创新性的接地网络,命名为单级接地区域网络(SSG)。该结构旨在直接识别并定位图像中与引用表达式语义相关联的引用对象,而无需依赖区域提示。为了引导多模态交互者将注意力集中在具有重要意义的接地区域,我们引入了一种基于目标中心偏差的引导性注意丢失方法。此外,通过整合属性预测损失项,我们的模型能够持续提升性能水平。在四个公开的数据集上进行的语言对象检索实验表明,SSG模型展现出良好的性能表现,特别是在ReferItGame数据集上实现了与现有先进方法相当甚至更好的结果。值得注意的是,该模型设计简洁高效,能够在RefCOCO数据集上实现每秒40个引用的处理速度
