Advertisement

论文阅读:Large-Scale Visual Relationship Understanding

阅读量:

Large-Scale Visual Relationship Understanding (AAAI 2019)

本文的主要贡献在于提出了一种双模融合的方法。该方法通过引入视觉注意力机制实现了对长尾目标检测的支持。具体而言,在模型架构中我们采用了基于Transformer的设计框架,在保证计算效率的同时提升了模型性能指标。为了进一步优化性能,在网络参数调节方面我们采用了自适应学习率策略以实现更好的收敛效果。此外我们还设计了一种新颖的数据增强算法能够在不显著增加计算开销的前提下显著提升了模型鲁棒性。最后我们在实验部分展示了该方法在多个公开数据集上的优异表现并得出了超越现有方法的结果。

针对语义模块

预训练好的word2vec词嵌入向量(wiki),本文用这个作为一个baseline

一种基于关系层次的嵌入表示方法(RelCo),将每一个relationship triplet视为一个独立的句子,并通过其常出现在其中的subject(sub)和object(obj)作为背景信息来推导其意义。进而要求在训练过程中最大化条件概率P(p | s, o)、P(s | p, o)以及P(o | s, p),以优化word embedding模型的表现。

基于Node2vec的方法生成节点嵌入向量,在VG数据集中存在场景图数据的情况下,默认情况下每个节点代表一个物体及其关联关系;这使得我们可以直接应用Node2vec技术进行建模

损失函数:
本文对triplet loss进行了一定的修改,首先对于一个RoI,其用于生成triplet的visual-semantic对为:

因此每个分支(sub、rel、obj)的triplet loss为:

其中N代表positive RoI的数量,K代表每个positive RoI选取的负样本数量,s表示相似度函数.原始triplet loss的主要缺陷在于当两个pair之间的相似度差距超过设定的margin时,就无法获得有效的优化效果.因此,在计算loss时引入了softmax函数来解决这一问题:

上式则通过训练使正样本之间的相似度向1收敛,并导致其与负样本之间的相似度趋向于0。

为了进一步提高嵌入向量的区分度,并引入了一种能够有效促进同类样本更加接近的新损失函数:

这个损失函数旨在确保同类区域-of-interest(RoI)样本中最不相似的一对样本之间的相似度均高于该类与其他类别RoI之间的相似度。

研究发现,在采用triplet-softmax损失函数的情况下优化L_y,在结合triplet损失函数优化L_x时,模型的整体性能表现出显著优势。为了避免不必要的紧张感(紧张),选择部分优化而非全部优化有助于提升系统的稳定性。每个单词自然代表一个类别,在这种情况下要求它们彼此远离是合理的。综合考虑以上因素后所设计的总目标函数为:

实验表明α和β都为1的时候在所有的情况下表现都不错。

该方法将triplet-Softmax损失视为常见形式的一种表现形式,并指出原始Softmax损失的形式如下。

其中x为输入特征,Y为网络权重,triplet-softmax为:

其中S是semantic模块,在此过程中引入了每个类别的词向量v_i作为特征表示;其核心在于通过计算各个类别的语义相似度来确定最匹配的目标类别;可以看出,在这一机制下将传统的softmax网络参数替换为其对应的 semantic embedding 后会形成一种特殊的三元组损失函数(triplet-softmax);这种基于语义引导的设计不仅提升了模型在分类任务中的区分能力与鲁棒性,并且使得整体架构更加符合深度学习优化的需求

在Fast-RCNN体系中,在每一次训练循环中对区域建议框(RoI)进行采样是至关重要的。通常情况下,在每一次循环中会采集128个RoI样本,在这之中正样本与负样本的比例通常维持在1:3的比例。具体而言,在本文所提出的模型架构中,sub和obj分支的RoI采样策略与经典的Fast-RCNN方法完全一致。然而对于relation分支部分,则要求两个候选区域 RoI 与 ground truth 区域之间的交并比(IoU)均需超过0.5方能被认定为正样本 RoI 。具体实施时会从sub RoI 中采样64个实例,并保证正负样本的比例仍为1:1;同样地也会从obj RoI 中进行相同数量的采样操作。随后将这些sub RoI 和 obj RoI 组合成4096对关系候选 RoI ,只有当这两者均满足与 ground truth 区域 IoU 超过0.5时才被标记为正类候选 RoI 。最后从这4096对候选 RoI 中筛选出128个作为relation分支的数据集输入用于后续训练过程

全部评论 (0)

还没有任何评论哟~