Advertisement

论文阅读:Representation Learning for Scene Graph Completion via Jointly Structural and Visual Embedding

阅读量:

RLSV (IJCAI2018)

本文采用了知识图谱补全中的经典Trans系列算法之一TransD应用于Scene Graph Completion(简称SGC)中。顾名思义,SC是从已经构建好了的scene graph基础上进行补充,并挖掘检测到的物体间缺失的关系。

让我们先来了解一下TransE模型。在知识图谱中的一对三元组(head, relation, tail)中,我们将relation视为从head到tail的一种转换关系。即满足h与r的向量相加近似等于t。然而这一方法仅能处理单个属性的情况,在现实应用中往往难以满足需求。因此出现了另一种改进方案称为TransR。由于每个实体通常具有多个属性且不同关系可能涉及不同的属性组合,在这种情况下传统的transE模型就显得不够灵活了。因此出现了另一种改进方案称为TransD。在这个方案下无论是实体还是关系都会被两个向量来进行表示:一个是普通的嵌入向量(h_p, r_p, t_p),另一个则是用于得到transR中的转换矩阵的表示形式(W_hr, W_rt)。例如,在使用transd模型时,默认会将转换矩阵W_rh设定为r_p与h_p的乘积形式。

上图展示了RLSV架构的主要组成部分

对于关系则只有一个动态映射矩阵

所以接下来的问题是如何构造这个动态映射矩阵。

Attribute Space:

给定一个实体e(无论其是head还是tail),其属性集合为A_e。其中属性总数为N_e,在此基础之上,在每一个属性a_i上构建相应的动态映射矩阵作为研究核心内容。

然而,在实际应用中,物体往往具有多个属性。因此本文提出了一种基于属性映射向量的加权融合方法来构建一个综合的动态映射矩阵

权重则是用下面的方式计算:

注意对于没有属性的实体,动态映射矩阵直接为nxn的单位阵。

Relation Space:

虽然可能实体和关系的维度相同, 也许它们实际上仍然不在同一个语义空间, 并且还有许多关系都是多对多 (many-to-many) 的。因此作者主张还可以将 **attribute space 中的实体再次映射到 **relation space 中, 并通过动态映射矩阵来实现这一过程的具体方法

Visual Space:

scene graph与 knowledge graph之间存在一个显著的区别在于,在 scene graph中所存在的三元组并非总是有效的。例如(person, stand on, ground)这样的三元组在 scene graph中并不总是成立。这是因为这二者之间的联系紧密依赖于具体的图像内容。因此,在构建映射关系时需要考虑 head、tail 和 relation如何动态对应到 visual space 中的不同区域。具体来说,则需要构建三个动态变化的映射矩阵来实现这一过程

对于这个问题,我不太明白为什么要这样计算动态映射矩阵 ,或许我可以查阅一下TransD的相关文章来进一步了解。通过这些动态映射矩阵完成转换后即可计算score值。

而最后的损失函数也是又正负样本的上面的score组成的

其中

负样本是通过在正样本每个三元组的元素上进行随机替换来生成的,并且必须确保正负样本之间没有交集。
RLSV所要学习的参数如下所示。

分别是E, 实体嵌入; R, 关系嵌入; E_p, 实体映射向量; R_p, 关系映射向量; A_p, 属性映射向量; W, 神经网络参数

实验:

本文在VRD与VG上均进行了实验,在VRD中保留了一个top-10列表并包含共计169个属性及75类物体;而VG则包含284个实体、153种关系以及同样也保留了169个属性(具体是否为top-169未作说明)。平均每张图片约7成的三元组用于训练

在每个测试三元组中, 替换其中一个头实体尾实体或关系节点, 然后计算所有新干扰三元组与正确答案之间的相似度并按照得分从高到低排序. 其中 rAVG 代表正确答案得分为所有测试样本中的平均排名, 数值越小越好, 最小值为1; Hits@k 表示在排序结果中的前 k 位是否包含真实答案的比例

Triple Classification:

为用户提供一个三元组用于判断其是否正确,在训练过程中利用这些正确的实例生成错误形式的三元组作为负样本来提升模型性能。最终实验结果表明

此实验结果对关系检测的实际应用并无显著价值

Full scene graph completion

作者首先利用模型补充了原有数据集中缺失的新三元组,并紧接着使用该模型对这些新增的三元组进行了测试。结果显示其中许多被模型所认可。随后为了验证这些被 model 所认可的关系的真实有效性, 又采集了 200 张图片样本, 并针对每一新增的三元组对, 让实验人员在不晓得该 model 判断结果的前提下, 给出他们认为这两个物体间可能存在的 top-5 关系选项。通过这种方法, 发现 model 输出的相关信息中约有 85% 的内容位于 top-1 的位置。

全部评论 (0)

还没有任何评论哟~