Advertisement

DRG: Dual Relation Graph for Human-Object Interaction Detection阅读笔记

阅读量:

笔记

  1. 这篇文章作者提出的模型仍然是利用了图结构的一种模型,和之前的图结构的区别在于这篇文章中作者提出的模型并不是dense的,他将原来的图分成了两个子图。并且在特征编码的时候也加入了language方面的特征。注意这篇文章的标题DRG只是本文提出的整个模型中的一个模块。
    在这里插入图片描述

  2. 如图2可以看到,现有的方法要么像b一样仅仅依赖于预测每一个HO对,从而忽略了丰富的上下文细节,要么就是比较dense的连接图。dense的问题在于会使得学习的推理的难度比较大。作者提出的module利用两个稀疏的subgraph,即利用上下文的相关信息,又不至于太dense。
    在这里插入图片描述

  3. 图3是本文提出模型的概览,可以看到创新之处是最后的Spatial-semantic stream除了用到bounding box框之间的空间关系还对word做了embedding,将他们concatenate之后作为输入。
    在这里插入图片描述

  4. 可以看到,pairwise spatial relationship并没有什么特殊的,仍然是使用了两个通道的特征图做卷积提取空间信息。后边的object semantics就是用目标的categories做word embedding,然后concatenate起来,前者的维度是5408,后者是300维,并起来一共是5708维的vector作为ss stream的输入xij。
    在这里插入图片描述

  5. 然后就是DRG,DRG的过程就如图4所示,首先根据给定图片检测出来的proposal,产生一个relation graph,再分别得到human和object的subgraph,然后再在每一对HO之间插入一个HOI节点,最后把所有的HOI节点连起来,得到human and object-centric HOI subgraph。这里所说的节点xij就是前边提到的5708维的特征。
    在这里插入图片描述
    因为需要更新节点xij,更新公式如下,这里用到了注意力机制,和self-attention类似,α就是注意力权重,它是u经过softmax归一化之后得到的权重。至于u就是通过公式3计算,因为矩阵形式看起来不太直观,但是就是和self-attention计算一样。公式3分子的前半部分矩阵运算出来是1024 1维,转置之后就是1 1024,然后再和后边的1024*1做矩阵运算出来就是一个标量,再除以根号下dk,就得到了u。
    在这里插入图片描述
    在这里插入图片描述
    注意更新后的x要加上原来的x合起来通过一个LayerNorm才得到最终的特征,如公式5。然后如此反复迭代,更新节点x。无论是human-centric subgraph还是object都是如此,两个子图有独立得权重,并且聚合上下文信息也都是独立分开进行的。
    在这里插入图片描述

  6. 推理阶段最终的预测分数如公式6,是检测器分数与图中四路分数的乘积得到最终的分数。有时候soa可能没有值,比如wolk,smile这些动作都没有涉及的object,这时候就仅仅使用sha就可以了。
    在这里插入图片描述

  7. 总结:注意这篇文章没有使用deep CNN的特征,其human和object stream只是使用简单的MLP加GAP降低了维度而已,然后再结合其后便提出的spatial-semantic stream就可以达到很好的效果,确实是另一种启发。另外本文在图结构的设计上不再使用非常dense的结构,而是分成两个子图,也是创新之处。至于注意力机制,在这几篇文章中看来基本或多或少都使用到了,也是一种趋势。

全部评论 (0)

还没有任何评论哟~