ICCV 2019 | (PMFNet)Pose-aware Multi-level Feature Network for Human ObjectInteraction Detection阅读笔记
目前人物交互在视觉上面临一个独特挑战,主要由于人物之间的差异性,多个共同的关系实例,关系种类之间微妙的视觉差异.为此本文提出了一个多级关系检测策略,利用人体的姿势线索来捕获关系的全局空间结构并将其作为注意力机制,在人的部位水平上动态地放大相关区域,本文提出了一个多分支网络在三个语义层面(交互上下文,目标特征,详细的语义部位线索)来学习姿势增强关系表示.
论文地址:https://arxiv.org/pdf/1909.08453.pdf
代码地址:https://github.com/bobwan1995/PMFNet
介绍
本文提出一个多级关系推理策略,核心思想是利用估计的人体姿势来捕获联系的全局空间结构,并指导在语义部位级提取不同HOI的局部特征,这种增强表示将交互上下文,人/物特征与详细的语义部位线索融入到关系推理中,能够产生可解释的具有稳健性与细粒度的预测结果,最后对每个人物建议框在三个不同的语义级别上进行关系推理:(1) 交互 (2) 视觉目标 (3) 人的部位
在建议框的交互级别上,采用人/物实例的联合区域,对相关建议框的上下文进行编码,并产生人-物对相关的分数,这个分数表示该人物对之间存在视觉关系的可能性,并帮助我们消除背景建议框.
- 在视觉目标级别上,采用一个通过姿势增强的目标级表示来编码人物的外观以及相关的位置.
- 在部位级别上,采用估计的人的姿势来描述人-物对详细的空间的外观线索.利用部位之间的相关性和关系产生部位级的注意力,使我们更加关注对每种联系有用的子区域.还会计算与物体相关的部位位置来编码更加精细的空间关系.
最后将这三个级别的线索整合起来预测人-物建议框的种类.
我们开发了一个多分支神经网络能够整合多级关系推理,主要由4个模块组成,主干模块,整体模块,放大模块,融合模块组成,
- 主干模块:计算卷积特征图,产生人-物建议框和空间结构
- 整体模块:整合人,物,和他们的联合特征,并对人的姿势与目标位置进行编码
- 放大模块:提取人的部位和物体特征,并从姿势分布产生部位级的注意力力来增强相关的部位线索
- 融合模块:结合整体和部位级的特征表示产生最终用于HOI分类的分数
该网络称为姿势感知的多级特征网络(Pose-aware Multi-level Feature Network,PMFNet)
本文的主要贡献:
提出了一个用于人物交互检测的多级关系推理,利用姿势来捕获全局结构并作为注意力来提取详细的局部外观线索.
开发了一个用于HOI检测的模块化网络结构,能够基于相关的联系与部位注意力产生可解释的输出.
研究方法
然后预测他们相关的类别,使用Faster R-CNN生成建议框与分数,{〈xh,sh〉},{〈xo,co,so〉},通过将所有的人-物建议框配对产生HOI建议框,在分类时,首先对每个交互和交互对〈xh,xo〉产生一个相关的分数sh,oa,然后将sh,oa与目标检测的分数sh,so结合起来,产生最终的HOI分数Rh,oa:

为了实现对一个给出的人-物对〈xh,xo〉预测一个相关的分数sh,oa,首先在建议框xh的裁剪区域使用一个姿态估计器,就能产生一个姿态向量ph={ph1,…,phK},phk表示第k个关节的位置.
引入一个多分支深度神经网络将交互上下文,人-物和详细的语义部位线索合并到推理中(Fa由骨干模块,整体模块,放大模块和融合模块组成):

2.网络结构

(1) 主干模块
使用ResNet50-FPN产生通道维度为D的特征图Γ,使用Faster R-CNN进行目标检测产生相关的建议框对〈xh,xo〉.提取一组几何特征来编码每个人-物实例的空间结构,使用人-物联合建议框的双通道二值图像来捕获空间结构,为了捕获细粒度的部位与物体的空间信息,增加了一个预测姿势的姿势图,将人的估计姿势表示为一个线图,所有的关节通过COCO数据集的骨架结构连接起来,使用w=3像素的宽度和一组均匀间隔的强度值(范围从0.05到0.95)对线图进行光栅化,以指示不同的人体部位。最后对联合生成的二进制掩码和姿势图重新缩放到M*M,按照通道连接生成空间结构图.
(2)整体模块
整体模块的目标是捕获目标级和关系上下文信息,其主要由4个基本分支组成:人,物,联合分支,空间分支.人,物,联合分支的输入是分别根据人,物,联合建议框使用Roi-Align在特征图Γ上进行裁剪的,并将他们的特征缩放到Rh×Rh,空间分支的输入来自于主干模块产生的空间结构图,对每个分支使用两个全连接层将这些特征嵌入到输出特征表示中,并分别使用fh,fo,fu,fs来表示,将他们连接起来获得最终整体特征表示Γhol:

(3)放大模块
放大模块能够放大人体的部位来提取部位级的特征,其输入为人的姿势,物体建议框卷积特征图,提取一组局部交互特征:

该模块由3部分组成:部位裁剪组件用于提取细粒度的部位特征,空间对齐组件将空间信息分配给部位特征,语义注意组件增强与交互相关的部位特征,抑制不相关部位特征.
部位裁剪组件:
对于一组姿势向量{ph1,…,phK},使用局部区域xpk,以phK为中心,并与人的边界框大小成γ比例,对这些部位边界框和物体边界框使用RoI -Align来禅城(K+1)个区域,并缩放到Rp×Rp,最后的特征分别使用{fp1,…,fpK},fpo表示.
空间对齐组件:
很多交互与部位和物体的空间结构具有很强的联系,可以通过不同的部位和目标物体的相对位置来编码,因此我们引入x,y坐标相对物体中心的偏移作为每个部位额外的空间特征. 生成了一个与卷积特征图 Γ具有同样空间尺寸的坐标图α,α由2个通道组成,显示出 Γ中每个像素的x,y坐标,并通过物体中心进行归一化,再对α上的每个部位和物体建议框应用RoI-Align得到每个部位k和物体的空间特征图 αk,αo,将空间特征图与裁剪后的部位特征连接起来.对于Rp×Rp的裁剪区域,将每个像素的相对空间偏移对齐,增强细粒度空间线索的部位特征,最终第k个部位特征和物体特征为:

语义注意组件
姿势表示也会编码部位的语义类别,这些语义与交互类型具有很强的联系,我们因此使用空间结构图来预测一个语义注意力,我们的语义注意力网络由2个全连接层组成,对第一层使用Relu函数,第二层使用sigmoid函数进行归一化,使用β表示语义注意力,使用语义注意力加权部位特征(表示按元素相乘,这里只有部位才预测语义注意力,物体不会预测语义注意力):

最后将部位特征和物体特征连接起来获得注意力的部位级特征fatt,并将其送入多个全连接层来提取最后的局部特征Γloc:


(4)融合模块
融合模块能够融合不同级别的关系推理
使用粗糙的特征作为语义线索确定人物建议框是否存在联系,使得能够抑制一些背景对从而提高检测精度,也就是将整体特征Γhol送入一个由2个全连接层组成的网络分支,后面接一个sigmoid函数σ,就能生成一个对应的交互分数sG:

使用目标级和部位级的特征基于细粒度的表示来确定相关的分数,使用相似的网络分支,从所有相关特征中计算一个局部关系分数:

将上面两个分数合并起来,得到最终的交互分数

(5)模型学习

SL表示预测局部分数,SG表示预测整体分数.N表示训练集的样本数,A表示交互种类标签数目,y^A ,i表示第i个样本针对部位A的真实标签,zi^表示样本i的真实交互标签
实验
使用faster R-CNN作为目标检测器,CPN作为姿态估计器,主干网络使用ResNet-50-FPN进行特征提取,从FPN的最高分辨率的特征图裁剪ROI特征,将空间结构图M设置为64,Rh= 7,整体模块的RoI-Align的分辨率Rh= 7,在放大模块部位的大小是人体边界框的γ= 0.1,特征缩放到Rp= 5
在V-COCO达到52.0%AProle
在HCIO-DET上达到17.46%的精度

总结
融合了上下文特征,实例外观特征,人-物的空间特征,部位与物体之间的特征,并使用注意力机制使网络更加关注与交互相关的部位.使用姿势捕获全局外观特征,并将其作为注意力捕获局部的部位特征,最后将这两级特征融合起来,我个人感觉就是将之前文章中别人用过的特征全部综合起来了.
