Advertisement

论文阅读:Rethinking Visual Relationships for High-level Image Understanding

阅读量:

VrR-VG

本文旨在解决视觉关系检测领域中基于Visual Genome权威数据集中VG150子集(包含 VG 中出现频率最高的 150 种物体及 50 种关系)上的问题。具体而言,在这一特定数据集中直接依赖统计方法获得较好的效果并不足以推动关系检测技术的进一步发展。因此文章提出了一种网络架构来筛选出视觉上不相关的(visually-irrelevant)关系样本。然而,在新的应用场景下基于频率的方法则不再适用。

如上所示,在图(a)中展示了VG150中的一个具体场景描述;而图(b),则是经过本文所述的方法清洗后所呈现的场景图像描述(Visually-relevant Relationships in Visual Genome, VrR-VG)。实际上,在对比中我们不难发现,在(b)中各实体之间的关系类别判断相对更为困难。

为了有效去除那些与视觉无关的关联样本,本文开发了一个基于视觉相关性的关系判别器。其核心思想在于:如果一个关系样本能够通过非视觉特征如物体类别和边界框位置进行良好预测,则可以推断该关系样本具有较高的视觉相关性。

输入涉及主语及宾体的类别向量与边界框的信息;其中p_o与p_s分别代表主体及其客体边界框的坐标参数;而p_j则记录了两组边界的相对位置关系及详细信息。

在神经网络模型中,全连接层权重参数W均为可学习参数。研究发现,在VG150数据集中超过54%的关系标签可通过该简单网络实现至少50%的准确率预测。
有了discriminator之后,则可着手构建数据集。具体而言,在VG数据集中最为常见的1600种物体及其相关属性被系统性提取出来作为基础素材库。值得注意的是,在一些具体的关系类别中存在特殊现象:例如"wears"与"wear a"等价关系会导致网络难以分辨,在相同的物体组合下这些等价关系均应被视为正确的描述方式。基于此原则,在本研究中将所有这些关键术语均采用Glove词向量进行编码表示,并通过层次性的聚类手段将其数量缩减至180种类型。在此过程中还引入了discriminator这一过滤机制来剔除视觉不相关的关系样本,在经过上述处理后最终获得了较为精炼的关系类别体系——共计113种分类标准。
从数量对比来看,在VG150中包含87,670张图片及超过588,586个三元组;而VrR-VG则仅包含约59,983张图片及23,375个具体的关系对。这种数量上的缩减虽然显得较为激进但显著提升了数据分布的均衡性程度。

全部评论 (0)

还没有任何评论哟~