Advertisement

论文阅读:Deep Variation-structured Reinforcement Learning for Visual Relationship and AttributeDetection

阅读量:

VRL(CVPR 2017)

文章

该文章运用强化学习技术来构建scene graph结构,并呈现逐步构建特征。具体而言,在每一步骤中都会创建一对具有属性的子对象(以及子对象的相关属性)。因此,在此过程中,“场景图将呈现出树状结构,并逐步完善”。这种研究方法让我了解到目前关于关系检测的主要思路共有三种:

  1. 识别出第1个关联属性及其对应值后, 进行下一步操作; 接着识别出第2个关联属性及其对应值并进行下一步操作; 如此类推, 直到识别出第n个关联属性及其对应值并完成操作
  2. 遍历每一个可能存在的关联属性组合, 并对每个组合进行相应的判定
  3. 对于每一对关联属性进行直接判定(如果该方法中存在无关联的情况,则将其视为一种特殊的关系类型)

由于关系检测涉及对象之间的两两组合问题较为突出

在现有方法中方法2采用了更为优化的方式

之前我也曾考虑过是否能够像方法1那样逐步生成关系但最终没有找到合适的解决方案

然而当我深入阅读这篇文章后发现作者的研究工作仍然有许多值得借鉴之处

从另一个角度来看强化学习算法每次都需要完整的前向传播过程才能得出结论

本文模型的架构如下:

可以看到,在强化学习中状态输入主要涉及state features相关的内容,并且涵盖了图片相关的特征信息、主体相关的特征数据以及历史预测信息等多维度的数据整合。其输出结果则包含三个功能模块:第一个功能模块用于分析主语属性;第二个功能模块则专注于评估主谓之间的关系状态;第三个功能模块则负责确定主语后续可能搭配的对象类别

首先介绍文章中的'Variation-structured'这一概念,则具体而言,则指模型在每一步的动作空间都是动态调整的。其目的是通过动态调整动作空间来提高模型的选择效率。然而,在实现这一目标的过程中,则需要平衡动作空间的大小与选择效率之间的关系。为此,在研究过程中,则采用了基于训练集构建Directed Semantic Action Graph的方法。具体来说,则是基于训练集统计了物体类别与属性之间的关系网络。

DSAG包含三种类型的节点:物体类别、属性类别以及关系类别。其中属性通过"物质量疑"的形式进行表示;而关系则通过"物质量疑→关系→物质量疑"的形式进行表示。基于此图示,请思考如何缩减动作空间?

attribute actions : 考虑到数据集中共有1049个属性指标, 相应的动作向量理论上应具有1049维的空间. 然而通过分析DSAG模型可以看出, 在每一类别中的物体实例与其关联到的实际属性节点数量非常有限. 基于这一特点, 我们可以通过去除那些在DSAG模型中未被连接到的实际属性维度来实现这一目标, 从而能够较好地维持准确性水平. 但这种做法带来了一个问题: 这导致无法直接推理对象之间的关系信息——即零样本学习的能力被牺牲掉了.

predicate actions:具有相同属性的类别中也存在相似的关系,在数据集中总共记录了347种不同关系类型。然而,在同一类别中的主语和宾语而言,在数据集中它们之间的具体关联通常非常有限。

object category actions :这一动作是为了决定下一步的选择对象——宾语的类型。具体来说,在数据集中总共有1750个不同的类别标签,在此基础上增加了一个特殊的终端标记(terminal),当选择了这个特定的动作时,则表示需要切换主语角色。文章通过两个层面来缩小可能的动作范围:首先是从所有候选对象中筛选出与当前主语类别距离较近的对象类别集合;其次是在这个初步筛选结果的基础上进一步筛选出那些在DSAG(Dynamic Spatial Attention Graph)关系图中与当前主语类别存在连接关系的目标类别集合。确定完宾语类别的基础之后,在实际操作中根据object detector(物体检测器)给出的具体位置信息就可以反推出相应物体的位置坐标了。不过,在实际应用中可能会遇到同一类别中有多个物体的情况(即多个具有相同名称或属性的对象),作者在此处没有明确说明如何处理这种情况,默认情况下建议可以根据实际情况进行筛选处理即可完成任务

模型中采用了9600-d的历史短语嵌入机制及其作用进行编码存储。该向量不仅包含了属性选择的信息(由两个2400-d的属性子空间构成),还包括关系选择的内容(由两个2400-d的关系子空间构成)。
在确定主语的方式上文中进行了详细说明其工作流程如下首先通过检测获得置信度最高的物体作为初始主语;随后在切换主语时则采用了广度优先搜索的方式来实现这一过程。
从强化学习的角度来看其核心组成部分包括状态空间、动作空间以及奖励函数三个要素。

疑惑的是关于下一个宾语类别选择奖励机制的原因。具体来说,当所选关系的对象是一个未被之前选中的ground truth主语-宾语时(即目标物体是一个新的、未被之前选中的类别的),奖励值为5分;否则(即选择了重复类别的宾语或未能准确匹配ground truth的情况),则会扣分为-1分。疑惑之处在于,在缩小动作空间并排除之前选过的邻居类别后(特别是当某个邻居类别只有一个候选对象时),是否还存在可能的选择范围仍需进一步明确。其一是在这种情况下(选择了同一个类别作为宾语),会导致奖励值为-1;另一个原因是所选类别的主语与ground truth的目标不同。

为了更好地阐述上述内容,请介绍一种基于分类的模糊对象挖掘方法。具体来说,在模型中进行分类决策时(例如,在上述操作中缩小动作空间时),系统会综合考虑该类别及其近邻类别的特征,并据此做出选择。

该方法具有两个主要优势:首先类似于对数据集进行增强处理(类似于为数据集增加多样性的手段),其中A的数据集包含了一些特定的关系信息虽然这些信息在B的数据集中并不存在但因为A与B具有高度相似性所以可以合理推断A也具备这些关系特征;其次这种方法能够在一定程度上实现迁移学习(即利用已知的知识去推导未知的情况)具体而言对于之前未见过的对象可以通过分析其与已有对象的相似性来进行关系推测但必须确保推断出的关系必须存在于训练数据中因此这种方法仅能实现有限程度上的知识迁移

在实验部分中作者进行了三项实验研究:第一项是relation phrase detection研究即通过模型能够预测出一个sub-pred-obj关系的同时定位其联合框;第二项是relationship detection研究能够分别对subject和object进行关系识别并独立定位各自的框;第三项是attribute detection研究能够识别出subject属性并定位subject的框。与现有大多数研究不同的是本文并未涉及sg-gen、sg-cls、pred-cls等常规分类任务

在这个研究中,我们采用了ablation实验方法来评估模型几个核心模块的作用。结果显示,在历史短语嵌入方面表现出了显著的优势,在歧义对象采样技术方面则实现了约1.3%的性能提升。

全部评论 (0)

还没有任何评论哟~