论文阅读12 | Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person Re-Identification
论文:Dynamic nature of two-stream attention mechanism in aggregative learning process within the visible-infrared imaging domain is applied to person re-identification technology
出处:ECCV2020
文章目录
- 创新点
- 1. 摘要
- 2. 引言
- 3. 方法
- 4. 实验结果
创新点
- 开发了一种新型动态双注意力聚合学习方法以深入挖掘模态内部part级别以及跨模态graph级别的信息特征,并以此提升可见光与红外人行物重识别中的特征表征能力。
- 开发了一个模态内部加权部分注意力模块用于提取并聚合part级特征的同时能够动态地根据身体各部分的变化自动分配权重。
- 引入了一种创新性的跨模式图结构注意力机制通过深入分析两种模式之间的人行图像关联关系从而进一步优化特征表征。
1. 摘要
鉴于样本噪声存在于模态内部及不同模式之间,在学习具有区分度的部分特征方面存在较大挑战。传统的VI-ReID类方法主要提取全局特征以表征目标,在一定程度上限制了其区分能力并削弱了对带噪图像鲁棒性的捕捉效果。在本研究中提出了一种创新性的双分支动态双注意力聚合机制(DDAG),该框架能够有效整合模块内部局部特征以及模块间全局关系的信息。
首先,在模态内部开发了一个加权部分注意力机制(intra-modality weighted part attention),以有效提取具有判别能力的特征片段;随后,在进一步优化时采用了跨模态图结构注意力模块(cross-modality graph structured attention),以增强对噪声样本的鲁棒性;最后,在这一基础上开发了一个无参数约束的动态双聚类学习框架(dynamic dual-clustering learning framework),通过渐进式联合优化方案自适应地整合这两个核心组件。
2. 引言
DDAG由IWPA和CGSA两大核心模块构成。核心思路是通过模态内部的part级别和跨模态的graph级别来提升特征表示能力。
通过整合两种模式间行人图像的关系性信息, CGSA旨在构建强化节点特征表示。基于跨模态图所包含的信息网络进行分析, 在模型构建阶段, 我们采用了多头注意力机制, 将邻近节点划分为内部与外部两类, 并根据其特性动态调整权重系数, 从而有效抵消异常变化样本所带来的负面影响, 同时降低了不同 modal间存在的异质性问题, 并使得整个模型的学习过程更加稳定。
此外又采用了灵活的双聚合作学策略,在多任务端到端学习模式下实现了对这两个关注模块的有效整合,并使复杂化的双关注网络得以稳定收敛
详见下图。

3. 方法
3.1 总体框架
DDAG由一个双流网络结构构成,并采用IWPA算法进行part特征聚合学习;同时通过CGSA方法实现共享全局特征的学习过程

3.2 Baseline
该研究设计了双分支的基础网络架构用于整合异构模态特征。为有效处理各模态特有的属性特性,在各分支初始卷积层参数有所区分的基础上构建特定模块以获取单模态的基本级特征表示;随后设置后续更深的卷积层则采用共享参数设计以提取共性特征信息并形成中阶抽象表征。在自适应空间聚合操作完成后通过共享Batch Normalization层进一步提取共性特征并完成跨模态融合任务;最后分别定义了基于实例区分度的身份损失Lid以及在线难挖掘三元组学习目标函数Ltri作为优化准则以实现多模态信息的有效融合与提升模型性能。
3.3 IWPA

一阶段: IWPA网络的第一阶段接收来自网络前端最后一个卷积块的输出特征图,并直接将其划分为p个互不重叠的part特征区域。随后将每个part区域分别通过三个独立的1x1卷积层进行特征提取(分别为v、u、z通道),并对前两个卷积层的输出结果进行点积运算并施加softmax激活函数处理。随后将第三个卷积层的输出与前两个部分的结果进行点积融合操作以提升注意力机制的效果。这样处理后得到的新part特征不仅保留了自身信息还充分考虑了身体各部位间的相互关系。
二阶段: 通过全局平均池化处理原始输入x_o后进行残差BatchNorm处理(借鉴ResNet中的跳跃连接机制)。其中一种方法是将原始输入先进行GAP处理并施加BN层后与提取的新part特征进行融合。通过引入可学习的空间注意力机制对各部分特征进行加权组合以生成具有区分度的部分聚合特征表示。

随后,在处理过程中采用自适应平均池化函数将输入特征图缩减至宽度p、高度为1的区域,并将其分解为p个独立的特征向量序列。通过连续施加三个线性变换操作分别生成三个对应的特征图序列,在此过程中将第二个特征图的最后两个维度进行互换操作以增强模型捕捉空间关系的能力。随后对每个位置上的行向量分别应用 softmax 归一化处理后与第三个特征图进行点积运算得到一个大小为 p×p 的注意力掩码矩阵;接着对注意力掩码矩阵中的每一行数据进行归一化处理并与其对应的第三个特征图进行点积运算得到最终融合后的 p 维向量;最后将未经过切片操作之前的原始特征图经过全局平均池化层以及一维BN层进一步提取全局空间信息并将其与之前得到的融合结果相加后再次施加全局BN层获得最终输出结果。
3.4 CGSA :
① 先验知识:
图结构由顶点集合与边集合构成。无向图中顶点之间的边没有方向;而有向图中顶点之间的边则带有方向。有权图中边上带有权重;而无权图中边上则不带权重。以表示起始节点为起点的路径数量为例,在计算机领域通常采用邻接矩阵或邻接表来表示这种数据结构。其中邻接矩阵通过连接的两个节点之间标记为1来表示存在直接关系,并用0表示不存在直接关系;而邻接表则通过链表或数组的形式来存储每个节点的所有邻居信息。


4. 实验结果
在自己服务器上跑出的结果:
整体平均表现良好。
全连接层(FC)在各排名指标上均表现出色。
具体来说,
在Rank-1位置上达到约[约为] [等于] [接近] [等于] 约[约为] [等于] [接近][等于][接近][等于][接近][等于][接近][等于][接近][等于] 约[约为] [等于] [接近]
同样地
带注意力机制的全连接层(FC_att)也展现了优异的表现
其在各排名指标上的表现略低于FC
但在关键指标如[此处省略因重复而未显示]
与之相比
两者的表现均较为稳定
且能够满足实际应用需求
SYSU-MM01数据集
### All Search、Single shot
All Average:
FC: Rank-1: 52.82% | Rank-5: 81.10% | Rank-10: 89.55%| Rank-20: 95.20%| mAP: 50.27%| mINP: 35.25%
FC_att: Rank-1: 52.62% | Rank-5: 80.89% | Rank-10: 89.33%| Rank-20: 95.10%| mAP: 50.10%| mINP: 35.15%
### Indoor Search、Single shot
All Average:
FC: Rank-1: 57.81% | Rank-5: 84.78% | Rank-10: 92.75%| Rank-20: 97.81%| mAP: 64.66%| mINP: 59.97%
FC_att: Rank-1: 57.62% | Rank-5: 84.45% | Rank-10: 92.46%| Rank-20: 97.76%| mAP: 64.39%| mINP: 59.65%
python

RegDB数据集
# Visible->IR
FC: Rank-1: 63.11% | Rank-5: 75.10% | Rank-10: 81.31%| Rank-20: 87.33%| mAP: 58.54%| mINP: 45.57%
FC_att: Rank-1: 65.58% | Rank-5: 76.75% | Rank-10: 82.77%| Rank-20: 88.35%| mAP: 60.16%| mINP: 46.99%
# IR->Visible
FC: Rank-1: 21.55% | Rank-5: 30.73% | Rank-10: 35.10%| Rank-20: 40.92%| mAP: 18.55%| mINP: 10.04%
FC_att: Rank-1: 22.72% | Rank-5: 31.75% | Rank-10: 35.34%| Rank-20: 41.89%| mAP: 19.56%| mINP: 10.78%
# Visible->Visible
FC: Rank-1: 98.01% | Rank-5: 98.88% | Rank-10: 99.22%| Rank-20: 99.66%| mAP: 91.67%| mINP: 80.26%
FC_att: Rank-1: 98.35% | Rank-5: 99.22% | Rank-10: 99.42%| Rank-20: 99.76%| mAP: 92.40%| mINP: 81.82%
# IR->IR
FC: Rank-1: 61.50% | Rank-5: 75.92% | Rank-10: 83.06%| Rank-20: 89.47%| mAP: 57.96%| mINP: 44.61%
FC_att: Rank-1: 63.35% | Rank-5: 78.40% | Rank-10: 84.13%| Rank-20: 90.68%| mAP: 60.03%| mINP: 46.55%
python

实验结果(只有baseline,去掉IWAP和GSDA):
SYSU-MM01:
# all
All Average:
FC: Rank-1: 44.54% | Rank-5: 73.16% | Rank-10: 83.45%| Rank-20: 91.58%| mAP: 44.22%| mINP: 31.72%
# indoor
All Average:
FC: Rank-1: 48.52% | Rank-5: 78.73% | Rank-10: 88.79%| Rank-20: 95.57%| mAP: 57.25%| mINP: 53.17%
python
