Polysemy Deciphering Network for Human-Object Interaction Detection论文阅读笔记
笔记
该文章研究者指出现有模型忽视了一词多义的问题,并认为同一动词在视觉特征上大致相近;然而实际上同一动词的视觉特征可能呈现出显著差异;在此基础上提出了一系列创新性研究方法及PD-Net模型;以有效应对这一现象的问题表现。

图中展示了将同一张图片的视觉特征进行提取的过程,在传统应用中通常是用于多标签分类的任务;然而,在本研究中,则将其转换为多个独立的二分类任务,并进一步引入了语言特征作为辅助信息。

段落3完整展示了一个复杂的人工智能网络架构设计流程。对于任意输入图像,在第一层处理中通过faster-rcnn算法提取候选区域,并将所有人类和物体进行一对一配对分析作为动词分类的对象。随后,在第二层处理阶段利用PD-net技术能够为每个候选配对生成多维度的动作分类概率分布结果。以图3所示为例仅为模型展示了一个典型应用场景实际运行环境中SH-VCM与SP-VCM网络架构包含了丰富的动作类别信息以及复杂的特征组合方式。为了应对动作一词多义的现象本模型主要采用了LPA特征提取PAM空间关系建模以及SH-VCM和SP-VCM的动作分类机制这三大部分策略其中人体姿态特性和空间位置特征则采用LPA技术构建而纯属性别与场景关系特征则基于PAM框架处理除此之外后续各模块均采用了全连接层结构实现信息融合过程下文将详细阐述各组件的具体工作原理和技术实现细节。

可以看出,在模型中,human stream被定义为输入proposal所具有的特征。它可以被分解并依次经过三个关键模块:Hws,Hsh和Hsp。其中,Hws模块由一个全连接(FC)层、接着一个批量归一化(BN)层以及一个ReLU激活函数串联而成。而另一个模块,Hsh,则仅由单一输出层构成,其神经元数量与verb类别总数相等。第三个模块,Hsp,则由两个全连接(FC)层构成,其中最后一层神经元数量等于HOI类别总数。值得注意的是,SH-VCM主要用于预测单个动词(verb),而SP-VCM则同时考虑主语与动词之间的关系(HOI)。

- Spatial stream采用了42维的空间特征向量与617位元组向量进行叠加运算,其中该617位元组空间对应于每一个二分类器所处理的动作-目标双子词。从现有的描述来看,作者并未对SH-VCM为何能仅用一个词来编码机制进行详细说明,但我的设想是将其中一个词编码为全零向量而另一个词占用剩余的空间,这样一来由于总维度数固定为618(包括全零向量),因此每个词大约占用约一半的空间维度即可满足需求。目前尚不清楚作者是否在其他地方对此进行了补充说明,后边三个block和之前大同小异不再赘述。

通过增强技术处理pose流的同时,在结构设计上与前面部分相同,并将其连接到上一个600维的词向量中。其中每个pose单元采用17个关键点构成17位特征,并将这些信息整合到总共构成272维特征向量中。综合起来形成一个872维的整体特征向量,在后续设计中使用的全连接层将接收这些信息,并最终输出结果仍由相应的分类器数量决定。

然后是采用注意力机制的方式,在混合四个stream时巧妙地应用以突出本次推理中对贡献最大的那些特征。

此处作者未对注意力机制中权重参数α的具体计算方法进行详细阐述。通常采用的方式包括点积运算或者其他相关算法来推导出该参数的具体取值范围与计算逻辑。综上所述,在最终得分计算中使用的是SSH这一指标来衡量各流之间的相似性程度与差异性表现之间的影响关系。具体而言,在四个不同的流分别生成相应的分数后再通过加权的方式综合得到最终得分时所使用的权重参数则反映了同一词在不同语义表示和不同特征维度上的重要性差异

上文介绍了SSH相关内容,在讨论SSP时发现两者具有相似性。鉴于数据量有限的情况下难以单独深入研究两者的效果差异,则需要综合考虑两者特性展开分析。值得注意的是,在具体实现层面两者的许多配置参数存在共通性,并非完全独立;其中部分关键参数具有可共享性(如图3所示)。此外,请注意作者强调如果无法实现参数共享,则模型性能可能受到显著影响。至于计算方式上,在不引入注意力机制的情况下两者计算逻辑基本一致(这部分具体内容请参考后续讨论)。
随后作者提出了一种名为SP-VCM的方法。其原因很简单:为了简化问题规模和计算效率。具体来说,在多标签分类任务中直接应用所有HOI类别会导致每次分类工作量过大。因此采用聚类策略:将意义相近的对象如hold sheep与hold cow归为一类,并将其视为同一个类别来处理。这里采用K-means算法进行聚类操作以实现目标。

第9段:
测试与训练并无太多可探讨之处。从SH-VCM与SP-VCM两个模块中汇总得出的所有二分类损失总和即为训练阶段所记录的损失数值,在测试环节中所得出的结果则是将目标检测器输出值与其相关联SH-模块及SP-模块得分相乘得到。引入了一个修正系数SI(Significance Indicator),实际上该系数取自预先训练好的INet模型输出结果。用于抑制那些不具备交互关系的对象对,在实验过程中加入此模型后实验结果较之前有所提升。
综上所述,
