Mancs: A Multi-task Attentional Network with Curriculum Sampling for Person Re-identification 论文笔记
一、提出问题
- 损失函数的选择方式
- 行人偏移问题
- 识别存在显著差异的特征区域
- 探讨如何在优化排名损失函数的过程中进行有效的数据采样策略
二、论文贡献
- 针对复杂场景建模需求,在深入分析现有技术局限的基础上提出了Mancs新模型。
- 在解决图像错位问题的同时定位具有显著差异性的局部特征区域,在此基础上设计了一种新型课程抽样策略用于优化排序损失。
- 通过在每个FAB中引入特定的分类损失函数进行反向传播训练,在每个模块中均设计了独立的学习机制。
- 深入解析网络内部各FAB的作用机制
- 在每个FAB中引入特定的分类损失函数进行反向传播训练
- 这种分类损失函数被称为注意力机制相关的性能指标
- 最终将排序相关的三重目标指标综合运用排序loss、焦点loss以及注意力机制优化网络性能
三、模型结构

图3-1 模型结构
3.1 训练结构
该网络架构被用于训练过程,并如图3-1所示展示。主要包括三个关键组件:骨干网络、注意力机制以及损失计算模块。
骨干网络充当多尺度特征提取器角色,在本研究中我们采用了ResNet-50架构,并通过conv-2、conv-3及conv-4模块分别提取不同尺度的空间特征进而生成注意力掩码;随后将这些掩码反馈至主干网络主体部分;经过最后一个 conv-5模块的深度学习训练后成功获取并输出人物的身份特征编码信息
3.2 全注意力模块

图3-2 SE模块和FAB模块
基于SENet的设计理念,在本方法中我们揭示了不同通道在特定对象上映射出特征的差异性。SENet中的SE模块(如图3-2(a)所示),通过为每个通道赋予相应的权重系数来实现选择性响应的调整。然而该模块仅对通道维度进行了响应校准,在全局平均池化操作下忽略了空间维度的信息提取。针对这一局限性,在本文所提出的FAB模块中我们放弃了池化层的设计,并采用1×1卷积替代全连接层以重新捕获空间信息。这样一来就能得到与输入特征图尺寸一致的注意力掩码矩阵(如图3-2(b)所示)。
给定卷积特征映射Fi,其注意力映射计算如下:

其中,在深度可分离卷积架构中包含两种卷积操作:一种是1\times1卷积层用于特征压缩;另一种是标准的3\times3深度可分离卷积层用于激发中间级特征。在获取注意力机制生成的特征图M后,在经过Fi模块处理后的输出特征图如下所示:

其中,在深度学习模型中使用*和+分别表示矩阵乘法与矩阵加法这一操作过程。这表明将注意力机制应用到原始特征图中以突出其独特的属性。在这种情况下(即FAB),我们可以灵活地选择是否加入注意力机制到现有网络架构中。值得注意的是,在这一过程中(即FAB),卷积特征映射的大小保持不变
3.3 ReID任务#1:三重损失与课程抽样
排名损失在深度神经网络重新识别任务中起着关键作用,在训练数据集规模较小的情况下尤其显著。相比于收缩损失与分类损失而言,在模型中引入了一个用于生成三重态图像的排名分支,在这种架构下能够有效提升性能表现。该方法通过构建特定类型的分支结构来优化模型对复杂特征的学习能力

的特征表示为

,其中

表示用于对特征进行排序的特征提取网络。如图3-1所示,

与其他分支共用骨干网络,并配有池化模块以及全连接层。在采用三重损失的情况下,其采样策略至关重要。
大部分行人重识别工作基于facenet所提出的三元损失函数。该技术的核心理念在于利用所谓的pk采样方法来进行在线困难三元组的采集与学习。具体而言,在该方法中会随机抽取p个不同的身份标签,并在每个标签下随机选取k张对应的图片数据。这些图片数据将被整合成一个大小为p×k的小批量样本集,并在此基础上展开学习训练。

中,每个图像都被认为是锚图像

,并且在I中找到对于

来说最困难的正样本和最困难的负样本,分别表示为

和

。

为三元性质且可获取PK三元组的一类问题,该过程亦被称作在线困难实例挖掘(OHEM)。然而,OHEM通过每次选择最具挑战性的样本更新参数的方式,在训练过程中可能导致模型过早退化。受课程学习方法的影响,本文提出了一种新的采样策略,即课程采样策略,通过从简单到复杂的方式构建完整的三元组集合来提升模型性能。
详细说明而言,在本文中并非一开始就采用针对最难实例的抽样方法;而是转而采用更为简单的实例作为起点。基于锚点实例

,先随机选择其中一个正样本为

其次,在按照与锚点之间的距离从近到远对负样本进行排序的同时(即按照由难至易的顺序进行排列),我们随后为每个负样本分配一个被选中的概率值。这些概率值遵循均值为μ、标准差为σ的高斯分布

其中

n表示负样本的数量。
a代表初始标准差。
b为t大于t0时的衰减指数。
t0和t1是超参数。
同样的目标;随机选取一个新的正样本再次进行上述步骤。
根据预先设定的概率分布选择另一个负样本(锚点不变)。
这样能够生成n乘以(K-1)个三元组。
最终可形成PK乘以(K-1)个三元组。
其中 PK是锚的数量,
K-1则是每个锚所对应的正样本数量。
根据课程抽样方法,排名分支的最终损失可以定义为:

其中D(·,·)是两个特征向量之间的欧式距离,

的概率定义如下:

3.4 ReID任务#2:具有focal loss的行人分类
研究表明,在行人重识别领域,结合应用能够显著提升性能效果。具体而言,在Mancs模型架构设计中同时引入了辅助分类分支这一创新性设计。研究发现,在排序与区分任务过程中具有不可或缺的作用特征——即难度挖掘实例不仅能够帮助实现行人的精确识别目标,并且这种特性还可以自然延伸至其他相关任务领域——即进行类别区分的任务范畴之内。为此,在训练过程中应当特别关注那些难度较高的目标实例,并采取相应的优化策略可考虑增加负样本权重这一重要考量因素。针对密集物体检测场景中的挑战性问题——即难以分辨的对象类别间的细微差别——采用Focal Loss这一目标加权机制正符合这种复杂情况下的需求特点:通过赋予难度较大的目标更高重视程度从而能够在有限训练次数内实现更好的泛化性能表现效果
将分类分支的特征提取器表示为

。 给定图像

及其真实身份

,

属于第c类的概率表示如下:

其中Sigmoid函数在下标ci处的值表示为取其第c维输出值。分类任务的目标损失函数可以被定义为以下形式:L_{\text{focal}}(y,\hat{y}) = \sum_{c=1}^{C} \frac{(1 - \hat{y}_c)^{\gamma}}{|\Gamma_c|} \cdot \text{CE}(y_c, \hat{y}_c)

3.5 ReID任务#3:深入监督以获得更好的关注
如图3-1所示,在多种中间特征层次上生成多级注意力机制。 借鉴了受广泛关注的经典网络架构设计,在研究领域具有重要参考价值。 该方法以精确捕捉注意力分布为目标,在模型训练过程中引入行人身份信息进行深度约束;这种约束机制有助于有效缓解梯度消失问题。
旨在实现这一目标。
多尺度注意力图通过空间平均池化处理后转换为一维特征向量;接着将其整合成注意力特征向量。
将关注的特征提取器表示为

,与3.4节中的设置类似,

属于第c类的概率如下:

然后,将注意力分支的损失函数定义为:

其中

,如果

属于c级,则

。
3.6 多任务学习
如图所示,在实验设计中

其中λrank,λcls和λatt为损失函数的权重。
3.7 推断(Inference)

图3-4 推断网络
在测试中使用推理网络时会发现其实其结构极为简单如图3-4所示因为课程抽样所提出的三重损失机制能够生成更具一般性的深层特征表示因此建议采用

作为每个实例的最终重识别特征。
四、实验结果




