DRG: Dual Relation Graph for Human-Object Interaction Detection阅读笔记

阅读量：

笔记

这篇文章作者提出的模型仍然是利用了图结构的一种模型，和之前的图结构的区别在于这篇文章中作者提出的模型并不是dense的，他将原来的图分成了两个子图。并且在特征编码的时候也加入了language方面的特征。注意这篇文章的标题DRG只是本文提出的整个模型中的一个模块。
如图2可以看到，现有的方法要么像b一样仅仅依赖于预测每一个HO对，从而忽略了丰富的上下文细节，要么就是比较dense的连接图。dense的问题在于会使得学习的推理的难度比较大。作者提出的module利用两个稀疏的subgraph，即利用上下文的相关信息，又不至于太dense。
图3是本文提出模型的概览，可以看到创新之处是最后的Spatial-semantic stream除了用到bounding box框之间的空间关系还对word做了embedding，将他们concatenate之后作为输入。
可以看到，pairwise spatial relationship并没有什么特殊的，仍然是使用了两个通道的特征图做卷积提取空间信息。后边的object semantics就是用目标的categories做word embedding，然后concatenate起来，前者的维度是5408，后者是300维，并起来一共是5708维的vector作为ss stream的输入xij。
然后就是DRG，DRG的过程就如图4所示，首先根据给定图片检测出来的proposal，产生一个relation graph，再分别得到human和object的subgraph，然后再在每一对HO之间插入一个HOI节点，最后把所有的HOI节点连起来，得到human and object-centric HOI subgraph。这里所说的节点xij就是前边提到的5708维的特征。

因为需要更新节点xij，更新公式如下，这里用到了注意力机制，和self-attention类似，α就是注意力权重，它是u经过softmax归一化之后得到的权重。至于u就是通过公式3计算，因为矩阵形式看起来不太直观，但是就是和self-attention计算一样。公式3分子的前半部分矩阵运算出来是1024 1维，转置之后就是1 1024，然后再和后边的1024*1做矩阵运算出来就是一个标量，再除以根号下dk，就得到了u。

注意更新后的x要加上原来的x合起来通过一个LayerNorm才得到最终的特征，如公式5。然后如此反复迭代，更新节点x。无论是human-centric subgraph还是object都是如此，两个子图有独立得权重，并且聚合上下文信息也都是独立分开进行的。
推理阶段最终的预测分数如公式6，是检测器分数与图中四路分数的乘积得到最终的分数。有时候soa可能没有值，比如wolk,smile这些动作都没有涉及的object,这时候就仅仅使用sha就可以了。
总结：注意这篇文章没有使用deep CNN的特征，其human和object stream只是使用简单的MLP加GAP降低了维度而已，然后再结合其后便提出的spatial-semantic stream就可以达到很好的效果，确实是另一种启发。另外本文在图结构的设计上不再使用非常dense的结构，而是分成两个子图，也是创新之处。至于注意力机制，在这几篇文章中看来基本或多或少都使用到了，也是一种趋势。

全部评论 (0)

还没有任何评论哟~

DRG: Dual Relation Graph for Human-Object Interaction Detection阅读笔记

笔记 1.这篇文章作者提出的模型仍然是利用了图结构的一种模型，和之前的图结构的区别在于这篇文章中作者提出的模型并不是dense的，他将原来的图分成了两个子图。并且在特征编码的时候也加入了languag...

Contextual Heterogeneous Graph Network for Human-Object Interaction Detection论文阅读笔记

前言论文地址笔记 1.这篇论文很像之前的GPNN，也是将HOI描述成图，利用图的结构来构建网络。但是这篇文章指出，前边的GPNN及其他类似的网络，都将human和object当作一样的节点，但是这...

Deep Contextual Attention for Human-Object Interaction Detection阅读笔记

前言论文地址笔记 1.这篇文章写的非常清楚，我们直奔主题就好，作者提出了一个基于上下文注意力机制的网络，这个网络可以通过学习contextuallyawareappearance特征来利用上下文信...

Polysemy Deciphering Network for Human-Object Interaction Detection论文阅读笔记

笔记 1.这篇文章作者提出现有的模型没有考虑一词多义的情况，即认为同一个动词的视觉特征差不多，然而实际情况下同一个动词的视觉特征可能会有特别大的变化，本文作者基于此提出了一系列策略和PDNet模型，来...

ICCV 2019 |Deep Contextual Attention for Human-Object Interaction Detection论文阅读笔记

人物交互检测是视觉关系检测任务中非常重要的一类任务，对于场景的深入理解至关重要，现在很多方法将其分解为目标定位与交互识别，尽管取得了一定的进展，但是这些方法仅仅依赖于人和物体的外观而忽略掉有效的上下文...

iCAN: Instance-Centric Attention Network for Human-Object Interaction Detection 论文阅读笔记

摘要本文研究场景图中人物交互问题。其核心思想是人或物体实例的外观包含指示线索，利用这些信息可以注意到图像中可以促进交互预测的部分。为了利用这些线索，研究者提出了一个以实例为中心的注意力模块，学习根据...

HOTR: End-to-End Human-Object Interaction Detection with Transformers论文阅读笔记

一、本文的内容 1.研究目的本文提出了一种基于transformer的人物交互的新的框架，它能够根据图像预测出apairof三元组人，物，交互，通过该集合预测，能够利用图像中的语义信息，并且，不需要...

论文笔记：Transferable Interactiveness Knowledge for Human-Object Interaction Detection(CVPR2019)

核心思想：学习InteractivenessKnowledge来判断是否存在人与物体的交互。用图来表示图片中的实例和关系，实例是节点，关系是边，如果采用穷举法配对，将会产生大量的边，其中大部分没有交互...

Cascaded Human-Object Interaction Recognition论文阅读笔记

笔记 1.现有的方法大都采用singlestage的推理线，考虑到任务的复杂性，作者提出了一种采用级联结构，多分支，从粗糙到细致的HOI理解。 2.如图1，作者的模型包含了一个实例定位网络和一个交互识...

Relational Context Learning for Human-Object Interaction Detection

Authors： Introduction：该文章研究的是人类物体交互检测的方法，之前的基于transformer的方法只是将整个图像输入进去得到人体、物体和交互动作的识别的结果，或者是只将人体物体...

是否确定退出登录?

DRG: Dual Relation Graph for Human-Object Interaction Detection阅读笔记

笔记

全部评论 (0)

相关文章推荐

DRG: Dual Relation Graph for Human-Object Interaction Detection阅读笔记

Contextual Heterogeneous Graph Network for Human-Object Interaction Detection论文阅读笔记

Deep Contextual Attention for Human-Object Interaction Detection阅读笔记

Polysemy Deciphering Network for Human-Object Interaction Detection论文阅读笔记

ICCV 2019 |Deep Contextual Attention for Human-Object Interaction Detection论文阅读笔记

iCAN: Instance-Centric Attention Network for Human-Object Interaction Detection 论文阅读笔记

HOTR: End-to-End Human-Object Interaction Detection with Transformers论文阅读笔记

论文笔记：Transferable Interactiveness Knowledge for Human-Object Interaction Detection(CVPR2019)

Cascaded Human-Object Interaction Recognition论文阅读笔记

Relational Context Learning for Human-Object Interaction Detection