论文阅读：Large-Scale Visual Relationship Understanding

阅读量：

Large-Scale Visual Relationship Understanding (AAAI 2019)

本文的主要贡献在于提出了一种双模融合的方法。该方法通过引入视觉注意力机制实现了对长尾目标检测的支持。具体而言，在模型架构中我们采用了基于Transformer的设计框架，在保证计算效率的同时提升了模型性能指标。为了进一步优化性能，在网络参数调节方面我们采用了自适应学习率策略以实现更好的收敛效果。此外我们还设计了一种新颖的数据增强算法能够在不显著增加计算开销的前提下显著提升了模型鲁棒性。最后我们在实验部分展示了该方法在多个公开数据集上的优异表现并得出了超越现有方法的结果。

针对语义模块

预训练好的word2vec词嵌入向量（wiki），本文用这个作为一个baseline

一种基于关系层次的嵌入表示方法（RelCo），将每一个relationship triplet视为一个独立的句子，并通过其常出现在其中的subject（sub）和object（obj）作为背景信息来推导其意义。进而要求在训练过程中最大化条件概率P(p | s, o)、P(s | p, o)以及P(o | s, p)，以优化word embedding模型的表现。

基于Node2vec的方法生成节点嵌入向量，在VG数据集中存在场景图数据的情况下，默认情况下每个节点代表一个物体及其关联关系；这使得我们可以直接应用Node2vec技术进行建模

损失函数：
本文对triplet loss进行了一定的修改，首先对于一个RoI，其用于生成triplet的visual-semantic对为：

注

因此每个分支（sub、rel、obj）的triplet loss为：

其中N代表positive RoI的数量,K代表每个positive RoI选取的负样本数量,s表示相似度函数.原始triplet loss的主要缺陷在于当两个pair之间的相似度差距超过设定的margin时,就无法获得有效的优化效果.因此,在计算loss时引入了softmax函数来解决这一问题:

上式则通过训练使正样本之间的相似度向1收敛，并导致其与负样本之间的相似度趋向于0。

为了进一步提高嵌入向量的区分度，并引入了一种能够有效促进同类样本更加接近的新损失函数：

这个损失函数旨在确保同类区域-of-interest（RoI）样本中最不相似的一对样本之间的相似度均高于该类与其他类别RoI之间的相似度。

研究发现，在采用triplet-softmax损失函数的情况下优化L_y，在结合triplet损失函数优化L_x时，模型的整体性能表现出显著优势。为了避免不必要的紧张感（紧张），选择部分优化而非全部优化有助于提升系统的稳定性。每个单词自然代表一个类别，在这种情况下要求它们彼此远离是合理的。综合考虑以上因素后所设计的总目标函数为：

实验表明α和β都为1的时候在所有的情况下表现都不错。

该方法将triplet-Softmax损失视为常见形式的一种表现形式，并指出原始Softmax损失的形式如下。

其中x为输入特征，Y为网络权重，triplet-softmax为：

其中S是semantic模块，在此过程中引入了每个类别的词向量v_i作为特征表示；其核心在于通过计算各个类别的语义相似度来确定最匹配的目标类别；可以看出，在这一机制下将传统的softmax网络参数替换为其对应的 semantic embedding 后会形成一种特殊的三元组损失函数（triplet-softmax）；这种基于语义引导的设计不仅提升了模型在分类任务中的区分能力与鲁棒性，并且使得整体架构更加符合深度学习优化的需求

在Fast-RCNN体系中，在每一次训练循环中对区域建议框（RoI）进行采样是至关重要的。通常情况下，在每一次循环中会采集128个RoI样本，在这之中正样本与负样本的比例通常维持在1:3的比例。具体而言，在本文所提出的模型架构中，sub和obj分支的RoI采样策略与经典的Fast-RCNN方法完全一致。然而对于relation分支部分，则要求两个候选区域 RoI 与 ground truth 区域之间的交并比（IoU）均需超过0.5方能被认定为正样本 RoI 。具体实施时会从sub RoI 中采样64个实例，并保证正负样本的比例仍为1:1；同样地也会从obj RoI 中进行相同数量的采样操作。随后将这些sub RoI 和 obj RoI 组合成4096对关系候选 RoI ，只有当这两者均满足与 ground truth 区域 IoU 超过0.5时才被标记为正类候选 RoI 。最后从这4096对候选 RoI 中筛选出128个作为relation分支的数据集输入用于后续训练过程

全部评论 (0)

还没有任何评论哟~

论文阅读：Large-Scale Visual Relationship Understanding

LargeScaleVisualRelationshipUnderstandingAAAI2019 文章本文的模型分为两部分：视觉模块和语义模块。对于视觉模块，作者认为关系的存在依赖于主语和宾语物...

Large Scale Holistic Video Understanding | 论文阅读

目录 LargeScaleHolisticVideoUnderstanding 1、摘要视频识别整体视频理解数据集HVU 整体外观和时间网络HATNet 2、引言视频识别 ConvNet的缺点 ...

【图像处理】ImageNet Large Scale Visual Recognition Challenge 论文阅读

这篇著名的论文总结了20102014年以来ImageNet比赛中关于图像分类和物体识别领域的研究，在谷歌学术上有2800+的引用量。（另一篇2009年的ImageNet:ALargeScaleHier...

论文阅读：Visual Relationship Detection with Language Priors

VisualRelationshipDetectionwithLanguagePriorsECCV2016 文章尽管大多数的relationship并不常见，但是它们的object和predicat...

论文阅读：Tensorize, Factorize and Regularize: Robust Visual Relationship Learning

Relationallearningmodule（CVPR2018）文章本文的基础的visualrelationshipdetection框架还是iterativemessagepassing那套...

论文阅读：Shuffle-Then-Assemble: Learning Object-Agnostic Visual Relationship Features

ShuffleThenAssemble 文章 Paper认为标记triplet的cost是很大的，而且人标记的relation有很强的的object的依赖性，就是某些relation对某些object...

【论文阅读】Suppressing Uncertainties for Large-Scale Facial Expression Recognition

问题：在大规模的表情图像数据集里，有些图像的标签不确定。原因：表情本身模棱两可，图像质量低下，标注者主观性判断。这篇文章目的：抑制这种不确定标签给网络训练带来的负面影响。

论文阅读：Large-Scale Transfer Learning for Natural Language Generation

迁移学习的思路是：先在大规模的未标注文本语料上无监督地预训练一个语言模型，再把预训练好的语言模型迁移到特定的任务上，对模型参数进行微调。目前迁移学习的大部分研究集中在文本分类和NLUnaturalla...

论文阅读：Zoom-Net: Mining Deep Feature Interactions for Visual Relationship Recognition

ZoomNet（ECCV2018）文章 Paper展示了通过对local的objectfeature和global的predicatefeature进行深层次的messagepassing和inte...

论文阅读：Deep Variation-structured Reinforcement Learning for Visual Relationship and AttributeDetection

VRL（CVPR2017）文章这篇文章使用强化学习来做scenegraph的生成，这种方式是逐渐生成式的，每一步会生成一对subobj的关系（还有sub的属性），于是场景图就会像树一样，渐渐成型。

是否确定退出登录?

论文阅读：Large-Scale Visual Relationship Understanding

Large-Scale Visual Relationship Understanding (AAAI 2019)

全部评论 (0)

相关文章推荐

论文阅读：Large-Scale Visual Relationship Understanding

Large Scale Holistic Video Understanding | 论文阅读

【图像处理】ImageNet Large Scale Visual Recognition Challenge 论文阅读

论文阅读：Visual Relationship Detection with Language Priors

论文阅读：Tensorize, Factorize and Regularize: Robust Visual Relationship Learning

论文阅读：Shuffle-Then-Assemble: Learning Object-Agnostic Visual Relationship Features

【论文阅读】Suppressing Uncertainties for Large-Scale Facial Expression Recognition

论文阅读：Large-Scale Transfer Learning for Natural Language Generation

论文阅读：Zoom-Net: Mining Deep Feature Interactions for Visual Relationship Recognition

论文阅读：Deep Variation-structured Reinforcement Learning for Visual Relationship and AttributeDetection