Advertisement

iCAN: Instance-Centric Attention Network for Human-Object Interaction Detection 论文阅读笔记

阅读量:

摘要

本研究聚焦于场景图中人与物的交互问题。其中关键在于人体或物体实例的外观特征包含着提示性线索,在此基础之上可识别图像中的部分有助于预测互动。为了提取这些特征信息的研究者设计了一个基于实例的关注机制。能够根据每个实例的具体形态动态地凸显出相应的区域位置。通过该关注机制形成的网络架构能有效地筛选并整合与HOI相关联的关键特征点。

一、引言

Why attention? 通过引入人体姿势的特征可能有助于区分不同的人体动作。通过引入手-物体互动的特征可以帮助识别各种互动场景。例如使用杯子喝水的动作与使用勺子吃饭的动作具有显著差异。通过引入环境因素的变化可以帮助区分使用网球拍击打物体与使用棒球棍击打物体的不同。

该研究基于实例化设计实现了端到端可学习注意力机制,并通过分析实例特征识别关键关注点。不同实例的视觉特性决定了应聚焦图像的不同区域。如识别他人拿物情况需重点关注手臂部位;而判断自行车状态则需考虑 nearby 人物姿势以消除潜在交互歧义。该方法通过动态分配注意力权重实现了对检测到对象的关注度调节,并能够精准定位关键关注点以优化任务表现。

贡献:

  • 开发了一个基于实例的注意力机制(attention mechanism),该机制允许网络动态地强调关键信息区域以改进霍尔语义检测(HOI detection)。
    • 在两个大规模霍尔语义基准数据集上展示了最新的超越性成果(state-of-the-art performance)。
    • 进行了系统性的对比实验以及误差分析,并评估各组件的重要性及其对整体性能的贡献。
    • 公开分享了源代码库(source code repository)以及预训练模型包(pre-trained model package),以便于后续研究工作展开。

二、相关工作

对象检测:是场景理解的关键技术之一。本文基于现成的 faster R-CNN 模型来实现人和物体的实例定位。

视觉关系检测:。。。

Attention:。。。

Human-object interactions :。。。

三、以实例为中心的注意力网络( Instance-Centric Attention Network)

模型概述。该研究者所提出的模型主要包含三个关键分支:(1)以人类外貌检测为基础的人流交互;(2)通过物体外观预测实现的物体流交互;(3)用于编码人与物边界框间的空间布局关系的配对流。基于现成的Faster R-CNN技术提取的对象实例信息,系统通过遍历所有的人-物体对生成HOI假设集。随后将各分支计算出的动作概率进行加权融合后输出最终结果。

3.1 方法概述

主要包括两步:

(1)对象检测:用faster R-CNN预测所有的人/对象实例。

b_{h}

:detected bounding box for a person.

b_{o}

:an object instance.

s_{h}

,

s_{o}

:the confidence scores for a detected person and an object, respectively.

HOI预测:基于以实例为中心的注意力网络评估每一个 人-对象对的交互强度评分。

Inference. 预测HOI得分类似于现有方法[14, 16],对于每个 人-对象对(

b_{h}

,

b_{o}

)和每一个a ∈ {1, · · · , A}(所有可能的动作),预测

S_{h, o}^{a}

得分。

S_{h, o}^{a}

得分依赖于:(1)单个对象检测的置信度(

s_{h}

,

s_{o}

);(2)基于人和物体的外观的交互预测(

s_{h}^{a}

,

s_{o}^{a}

);(3)基于人与对象之间的空间关系的分数预测

s_{sp}^{a}

。所以,

S_{h, o}^{a}

为:

有一些动作类别不包含交互对象(walk, smile... ...):

S_{h, o}^{a}

=

s_{h}
s_{h}^{a}

Training. 由于一个人能够同时对一个或多个目标物体实施多种不同的操作(如用网球拍进行击球和握紧拍面),因此霍夫特物体会相互作用(HOI)检测可被视为一个多标签分类问题,在此过程中每个交互类都是独立存在的并且彼此之间并不互相排斥。我们为每个动作类别采用了二元sigmoid分类器的方法,并进而最小化各动作类别对应的损失函数值。

s_{h}^{a}

,

s_{o}^{a}

,

s_{sp}^{a}

我们采用二元sigmoid分类器针对每个动作类别,并计算预测与真实动作标签之间的交叉熵损失。

s_{h}^{a}

,,

s_{o}^{a}

, or

s_{sp}^{a}

and the ground-truth action label for each action category. )

3.2 以实例为中心的注意力模块

该模块接收输入图像并输出其卷积特征图与人体或物体边界框的位置信息。接着,模块提取实例对象的具体外观描述以及基于注意力机制所生成的相关特征。在计算注意力权重时,研究团队采用了具有512个通道的瓶颈网络来衡量不同区域间的相似度信息。详细地说,在这一过程中,他们首先通过一个1×1尺寸的卷积层对图像进行初步处理,并结合实时提取的人体或物体外貌特征求取最终表征

我们首先使用标准过程提取实例级外观特征

x_{inst}^{h}

,ROI polling,res5,GAP。

改写说明

x_{inst}^{h}

将卷积特征映射被嵌入到512维空间中,并采用点积运算来评估该嵌入空间内的相似程度。随后应用Softmax函数生成以实例为中心的注意力掩码。这些掩码能够突出显示图像中相关的区域部分,并且这些区域有助于识别与给定的人或物实例相关的交互行为(HOI)。基于此,在此基础上我们可以利用这些注意力权重计算出反映上下文信息的具体特征向量

x_{context}^{h}

iCAN模块的最终输出是实例级外观特征

x_{inst}^{h}

和基于注意力的上下文特征

x_{context}^{h}

的连接(concatenation?)。

Our iCAN模块相对于现有方法显著优势。首先,在现有的基于姿态[6]的手工设计上下文特征之外,我们的模块还考虑了整个图像[31]以及次要区域[13]等全局信息,并通过联合训练的方式实现了更优性能;其次,在与基于图像级分类的设计相比,我们的实例导向注意力图灵灵活多变,在不同对象实例下能够自动聚焦于图像的不同区域以提升识别效果

3.3 Multi-stream network

Human/object stream. 根据3.2节和图4所展示的具体步骤获取一个人实例级外观特征

x_{inst}^{h}

或物的实例级外观特征

x_{inst}^o

和2)基于注意力映射的上下文特征

x_{context}^{h}

(或

x_{context}^{o}

)。将两个特征向量连接起来,并通过两个全连接层来生成动作得分

s_{h}^{a}

s_{o}^{a}

。来自人类流的分数

s_{h}^{a}

也允许我们检测不涉及任何物体的动作,例如,行走、微笑。

该算法基于配对式的流模型进行设计与实现研究

x_{inst}^{h}

我们的认知认为,在相同布局下的不同行为间的混淆具有显著区别。研究表明,人类外表在相同布局下的不同行为间的混淆具有显著区别。

3.4 Efficient inference

四、实验

1、在两个大型 HOI 基准数据集上的效果优于当前最佳模型

通过摄像头捕捉的照片中识别出多种 HOI 的表现形式。该系统能够识别不同场景下与人类互动的各种物体类型:骑自行车、进食、躺下来以及饮水等行为模式。

检测到对同一类别物体的不同类型的交互:

3、Ablation study

a) Contextual features. A baseline without considering any contextual features, spatial convolution-based features from the entire image, bottom-up attention mechanisms, and the proposed instance-centric attention mechanism demonstrate that contextual features typically enhance HOI performance.

b) 人为中心 vs. 对象为中心的注意力映射强调了其重要性

c) mAP vs. time vs. memory. 在mAP,时间,内存上的权衡

参考:机器之心 《iCAN:以人为中心的人机交互检测网络》

全部评论 (0)

还没有任何评论哟~