Cascaded Human-Object Interaction Recognition论文阅读笔记
笔记
-
现有的方法大都采用single-stage的推理线,考虑到任务的复杂性,作者提出了一种采用级联结构,多分支,从粗糙到细致的HOI理解。
-
如图1,作者的模型包含了一个实例定位网络和一个交互识别网络。这两个网络都以级联的形式工作,通过实例定位网络,一步一步的增强选择的实例,proposal的质量提高,对于接下来的相关表示也是非常有用的。而且也可以实现更好的动作预测。

-
如图2可以看出两种模式的区别,a表示的是single stage方法,b是作者提出的级联结构,这种结构不仅可以解决HOI检测的问题,还可以用于图像分割。

-
图3a是整个网络的pipeline,输入一个图片,首先通过backbone提取特征,然后通过L定位proposal,然后配对采样, 再通过R识别动词。图b是R中的RCM模块。

-
首先是L部分,即Instance Localization Network:这部分的输出是一个人物区域的集合,有许多标定的人物框和物体框,这些框经过采样再送入下一个模块R进行verb classification。它是通过多个检测器级联实现的,在第t个分支上,通过公式12来修正提出的区域。

其中,I就是图中经过backbone提取的CNN特征,不同的stage都共享,然后ot-1是上一个分支检测出来的区域,p是align pooling Dt是回归函数。这组方程的意思就是,我们通过对一个区域多次修正来达到更准确的目标框回归,其实和faster rcnn中很像,那里它也是修正了两次。不过这里需要注意的是,每次训练一个分支后,下一个分支训练的IOU阈值都要增大,通过这种方式来提高训练数据的质量,即可以理解为训练数据的难度越来越大。 -
然后是R部分,即Interaction Recognition Network,前边已经定位出了region,接下来就是检测pairwise的交互动作。R包含了RRM和RCM两个子模块,这两个模块都要依赖于作者设计提出的humancentric relationship representation。
-
上述提到的humancentric关系特征表示有三块,如图3b所示,分为semantic feature Xs,Geometric feature Xg和Visual feature Xv。Xs就是对标签做编码,Xg和之前提到的一样两个通道的空间图做卷积。而Visual feature Xv又包含三部分:H、O、U,分别代表人,物,和他们的联合区域。

由公式3可以看出,HOU就是L提出的region在I上crop出来的特征再align pooling而已。 -
注意,这里很不一样的一点是,作者对H和O的特征做了增强,最终得到的Xv如公式4

这里的H和O是增强后的特征。具体增强的细节在原文中公式5到公式10,这里不再赘述。最终每一个当前分支t的Xv都会根据上一支得到的特征进行更新:

-
特征讲完了接下来就是R中的第一个模块RRM,其提出的目的在于想要从众多的human-object对中选取一些有用的,质量高的,去除掉一些没有注释或无意义的配对。

总之就是通过minimize 公式14表示的loss,使得有注释的pairwise得分比无注释和没有交互的pairwise得分要高,因为我们最终选择的配对就是根据那个rank从高到底选的。 -
然后是RCM做最终的动作分类,因为RRM已经提出了高质量的框,而且前边每个框的特征我们也做了说明,包括三个流,semantic geometric visual,

这三路特征经过一个全连接层得到各自的分数然后混合就是最终的分数,注意这里的点代表的是Hadamard乘积。
-
这个模型在19年ICCV Person in Context Challenge中拿到了relation detection和segmentation tasks的第一名。
