Deep Contextual Attention for Human-Object Interaction Detection阅读笔记
前言

笔记
这篇文章条理清晰, 我们可以直接聚焦重点, 作者构建了一个基于上下文注意力机制的网络, 这个网络能够通过提取contextually-aware appearance特征来依靠上下文信息实现对HOI模式识别. 此外, 这个注意力机制模型还具备灵活地整合相关以实例为中心的上下文信息的能力, 从而能够提高可能包含HOI的对象区域检测效果.
深入剖析整个体系结构

最新的内容是以红色方框标注的context-Aware Appearance与Contextual Attention这两项为主流的技术创新点。其余内容均为此前已提及的内容,在图中的pairwise Stream这一区域与先前论文中采用的方法完全一致此处无需赘述

该网络的输入输出描述得非常清晰。其输入端主要是通过FPN(Feature Pyramid Network)提取出来的边界框坐标,并将这些信息传递给后续处理模块。其输出端则是一个包含三个元素的元组:参与者身份、动作类型以及目标位置的信息。
深入理解以下部分中的人类流HumanStream和物体流ObjectStream。两者本质上是同一回事,其区别在于输入数据的不同。具体而言,在HumanStream的情境下, 通过目标检测器识别出的人脸框被用于裁剪Res5层的特征图, 并将生成的特征图输入到Context-Aware Appearance模型中进行处理, 从而得到具有语义信息增强的特征表示。这些处理后的特征再被 fed 到 Contextual模型中进行进一步分析, 如图所示的是这两个模块的具体架构示意图。

该从原始图像中提取出的关键区域
- 关于这个CAA模块,里边有两个东西,一个是Context Aggregation,另一个是Local Encoding。前者是为了在保留空间信息的情况下捕获一个较大的视野去整合周围信息。其实就是使用了一个大的卷积核做卷积,这里的大的卷积核不是trivial k × k convolution而是factorized large kernel,为何要用大的卷积核?这里我查阅了相关资料:现在的模型设计倾向于使用小的卷积核来堆叠替代大的卷积核以减少参数的数量,虽然堆叠多个小的卷积核和一个大的卷积核在理论上具有相同的感受野,但是如果调大输入图像的尺寸,则感受野可能就不能覆盖全部物体了。并且虽然有多个卷积核叠,但是边缘区域进行计算的次数会小于中心区域,所以随着 Conv 的不断堆叠,实际上会导致边缘感受野的衰减,即有效感受野会远小于理论感受野。 所以说这个Context Aggregation出去的还是一个feature map只不过通道数改变了(信息被聚合了),接下来是local encoding,这里其实就是一个池化操作,但和一般的目标检测模型中使用ROI pooling不同,这里作者用的是一种位置敏感的RoI池化操作,作者的灵感应该是来自于R-FCN,只是做了一些小的改进,总之这个pooling过后就会把输入的不同size的特征图pooling到固定的尺寸,再打平通过一个FC就得到了固定维度的上下文外观特征fapp。然后这个东西就要送进下边的CA模块。
- CA模块包含一个自底向上的注意力机制和注意力细化成分。自底向上的注意力机制基于这篇文章,从图上来看,就是上边产生的fapp和使用1 _1卷积核对Res5 feature map做卷积产生512通道的A做点积,得到一个attention map,然后这个attention map再去调制A,最终输出的

然后Fm再送进一个attention refinement block进一步增强辨识能力。

在图中上部区域的Spatial Refinement部分通过应用一个1×1尺寸的卷积核对Fm进行卷积操作生成一个单通道的目标热图H;随后对该热图H执行基于归一化的Softmax操作并将其与原始特征图Fm相乘得到最终的空间分辨率增强结果Satt;至于下边区域的Channel Refinement部分则参考了SENet的思想首先对该特征图Fm执行全局池化操作后再将其压缩为一个通道描述子z;接着通过两个连续的全连接层分别应用RELU和Sigmoid激活函数完成处理

然后把Catt和上边的Satt相乘得到细化的调制特征表示

最后进一步对Fr执行GAP运算以获得fr值随后将fr与fapp进行拼接从而生成最终特征x接着利用两层全连接层来从human stream中推断行为预测
- 本节将不再详细讨论与实验相关的内容。总结中提出了一种基于深度上下文注意力机制的新方法——针对高阶交互(HOI)设计的深度上下文注意力网络。该网络不仅能够有效提取人与物及其周围环境的关键视觉特征,并且同时有效地降低了背景干扰;在关注HOI的关键关系时——能够根据具体情况主动筛选并聚焦于那些最重要的实例级上下文信息。
