论文阅读笔记——[MPN]: Multi-task Learning with Coarse Priors for Robust Part-aware Person Re-identification
Enhanced Robustness in a Multimodal Learning Framework Utilizing Discriminative Coarse Prototypes for Part-Aware Person Re-identification.
TPAMI 2022 源代码
提出原因:
通过学习 Part-level 级别的特征求取器能够有效地捕获人类行人的关键特征。然而在实际应用中发现,在存在肢体错位的情况下提取到的行人特征的质量会有所下降。
主要表现在两个方面:
- person detection system 导致误检位置:身体各部位的空间排列与尺寸比例存在差异(如图1所示)
- humanistic movement patterns 导致误检位置:如图2所示的人体各部位的空间排列与形态存在显著差异

基于人体解析模型和人体分割模型的结合,作者提取了粗略的形态信息,并将其作为初始知识库使用。
该网络模型在分析人体姿态时,在其最后一层卷积层所提取的特征中,各个通道分别反映了人体各部位的变化情况。

对此,在研究过程中作者提出了多任务学习方法(multi-task learning),将其应用于特征图分割任务,并将每个分割后的特征图划分为 K 个子块,在每一块中提取行人局部特征。
将整张行人图片视为主要任务(main task, MT),将每个局部特征视为辅助任务(auxiliary task, AT),共 K 组主辅 任务
每对 主—辅 任务中,MT 利用 AT 中的局部肢体特征,选择对应肢体的响应通道
创新点:
提出多任务学习方法
具体说明
其中辅任务包含身体部位位置的粗先验知识,解决肢体部位错位问题
提出概念转移(concept transfer)方法:基于ATs框架,在优化MT参数的过程中实现了局部肢体部位的概念(基于粗先验知识)向MT中的迁移,并最终使得主干模型能够识别出与局部特征相关联的通道结构。
具体来说,通过两种新的对齐策略 实现:
- 基于硬编码参数的共享机制实现了参数空间的对齐(
parameter space alignment, PSA) - 通过分类别的方法实现了特征空间的对齐(
feature space alignment, FSA)
方法:
训练阶段:
对于任一局部肢体部位(共 K 个),包含一个主任务(MT)和一个辅任务(AT)
K 个 ATs 包含身体部位位置的粗先验知识,并因此能够通过归纳偏置来实现每个身体部位与相关通道的关联。
两者在 输入表征 上存在显著差异:
- MT:通过主干模型提取出的基础性视觉表征 F
- AT:基于人体解剖学基础进行的特定区域特异性表征提取得到的局部特征图 P_k
测试阶段:
移除 AT,只利用 MTs 提取 part-level 特征表示

模块1:Coarse Prior of Body Part Locations(身体部位的粗先验知识)
该领域的先验知识来源于现有两种方法的成果:这些研究涵盖了对人类解剖学的深入解析(human parsing)以及对身体结构的细致分割(`human segmentation$``)。
- 人体解析功能可识别预设的身体区域,并能有效区分具有明确身份特征的身体部位;然而该方法未能识别具有区分度的配件(如背包)以及未明确界定的身体部位(如颈部)。
- 人体分割算法能有效分离身体各部分,并生成整体的人体轮廓图;然而该方法却无法捕获关键细节特征。
见图4可知,各自存在错误的情况时偶尔会发生.由此可见,本文将两种方法配合使用.

先验知识 生成步骤 :
检查解析特征图中是否同时存在头部和至少一条腿
当两者共同存在时,在深度学习模型中进行融合操作以生成一个更加可靠的用于人体掩膜的综合图像(通过取两者的并集获得)。
若某一项不存在,则将无法确定后续人体的上界和下界;对此处的情况而言,在垂直方向上对整个图像进行均等划分,并估算出 K 个粗略的身体部位位置。因此无需进行后续的操作步骤。
经过尺寸调整操作后将掩码图 resized 至 24 × 8 大小(该尺寸与骨干网络输出的特征图空间维度一致),随后对该掩码图像执行二值化处理(即通过设定阈值对像素强度进行判断:若像素强度超过阈值则标记为1,反之则标记为0)。在此基础上使用 1 × 2 大小的卷积核执行膨胀操作以提取行人掩膜 M 并确定其上下边缘位置(即 region of interest, ROI)。
将行人掩码 M 与 行人原始特征图 F 点乘,减少背景杂波影响
利用行人的上下界 crop,再利用双线性插值 resize 为原大小
最后,将特征图在垂直方向上均分为 K 份,每份记为 P_k

作用 :减少背景杂波影响,对齐行人肢体部位
第2模块:基于参数空间对齐的通道选择
首先介绍模块,所有 MT 和 AT 模型结构都是相似的

例如,在 MT 的结构中(Mask Transformer),其主要组成部分包括以下几个关键组件:首先通过一个深度可分离卷积层(1 \times 1 Conv)提取特征;接着经过全局最大池化操作(Global Max Pooling)进行特征聚合;此外还包括一个可选的注意力机制模块(CA Channel Attention Module)以进一步优化表示能力;最后再经过另一个 1 \times 1 Conv 层完成最终特征映射。
每个 Conv 层都会配置一个批量归一化层和一个 ReLU 层,并且所有 Conv 层的通道数都设置为 512。
CA 模块介绍如图 6 所示:

作用:
第一个 Conv 层:从 F 中选择并组合部分相关的通道
相关性的程度由训练集决定,因此,它可能不是每张单独图像的最优值
GMP 层:提升模型对肢体的平移不变性
CA 层:进一步学习每个通道的关联度,但会增加模型的复杂度
第二个 Conv 层:将特征向量映射到一个更有鉴别性的空间,用于后续分类
参数空间对齐:
MPN 在每对 MT-AT 中共享 两个 Conv 层和 CA 模块的参数
该系统通过优化MT参数来实现。其局部肢体部位的概念(基于粗先验知识)被转移至MT中,并从而导致第一个Conv层选择相关联的通道
硬参数共享能够使网络结构在训练阶段非常紧凑
模块3:Respective Loss Functions for MTs and ATs
f_k^l 和 z_k^l 分别表示 MTs 和 ATs 第二个 Conv 层的输出特征
首先,计算 ID 损失:

将 K 个 MT 提取的特征拼接,得到 h=[f_1, f_2, ...,f_k]
然后,计算特征 h 的三元组损失:

其中,\mathcal{D} 表示余弦相似度距离:

模块4:Feature Space Alignment between MTs and ATs(特征空间对齐)
尽管该策略在性能方面表现出色,在面对每对 MT-AT 的输入特征图时仍面临挑战。因为每对 MT-AT 的输入特征图之间存在显著差异,在这种情况下,提取出的特征仍存在一定差距。
为了弥补这种差距,本文提出以类(class-wise)的方式对齐特征
首先,将 K 个 AT 提取的部分级特征拼接,得到 g=[z_1, z_2, ...,z_k]
计算 h 和 g 中每个类的中心特征,得到 \bar{h} 和 \bar{g}
最后采用分类方法进行惩罚两者的余弦相似度距离计算,并令 S 表示每个 batch 中的类别数目

对比 以样本(sample-wise)的方式对齐特征:

针对质量较低的画面来说,
粗略的知识可能未必是最佳选择,
容易出现由于身体部位位置不准确所带来的问题。
通过类比形式施加距离惩罚的方式,则有助于减弱因身体部位位置先验错误而导致的影响。
PERSON REID VIA MPN:
训练阶段:
总损失函数:

测试阶段:
仅利用 MTs 得到特征 h,然后利用余弦相似度度量特征距离
优点:
MPN 有三个关键优势:
- 在测试阶段无需对身体部位进行检测;
- 模型在训练与测试过程中均呈现出高度紧凑且高效率的特点;
- 在训练阶段仅需利用身体部位位置的粗略先验信息,并且其生成过程相对简便。
什么是模型紧凑(compact)?
实验:
消融实验:
模块名称解释:
- MTL代表多任务学习
- C1-S代表共享第一个卷积层
- C2-S代表共享第二个卷积层
- CF代表对齐空间特征
- CA采用通道注意力机制
方法名称说明:
- Baseline:具体说明该方法仅基于切片局部特征提取,并类似于PCB技术。
- Baseline(UB):经上述处理后,在原有数据集基础上再通过Baseline网络进行。
- MT Only:仅包含主任务内容。
- Naive MTL:采用基础多任务学习策略,在此框架下将全局特性和局部特性分别作为主要任务与辅助任务进行

可视化分析:
- 基准方法(Baseline):通过将输入图像划分为均匀分布的
K个子区域,在此过程中存在肢体部位分布不均的问题,并且观察发现第一个分类器的主要关注点集中在背景区域。 - 简单多任务学习(naive MTL):在此方法中完全缺乏任何对齐策略指导的情况下(即完全依赖于自动学习),所生成的所有
K张注意力图具有高度相似性(表明其提取出的注意力模式之间缺乏差异性),这反映出该方法提取出的特征具有明显的局限性。 - 多尺度配准网络(MPN):基于这种双对齐策略的设计思想,在实验中我们发现该模型能够实现部分级特征语义上的精准对应。

参数 K 的对比实验:
图 7 说明,参数 K 设置为 7 时,效果最优

先验知识的对比实验:

方法名称说明:
- Uniform Division:将特征图均等分割为K份,并作为ATs的输入使用
- ROI Resize:省略"先验知识生成步骤"中的点乘操作,在此过程中不考虑背景因素
PSA中参数共享策略的对比实验:
基于软参数共享的方法实施对比实验。在软参数共享的框架下,本文采用 L2 损失对各 MT-AT 对之间的参数差异进行惩罚。同时,在设置 L2 惩罚权重时,默认采用 0.01、0.1、1 和 10 四个梯度递增的值。
实验证明,在性能最优的软参数共享基础上,硬参数共享 在 Market-1501 数据集上优于 0.4%/0.3%(Rank-1/mAP),并在 DukeMTMC-ReID 数据集中优于 0.3%/0.4%

FSA的对比实验:
- Batch-wise:通过 batch-wise 的方式进行空间对齐
- 第一个 Sample-wise:通过将 h 特征与 g 特征进行拼接,并基于三元组损失函数施加约束
- 第二个 Sample-wise:遵循公式 9 所描述的计算逻辑
结果说明:
- 批量处理方式未考虑样本的身份信息, 具有较低的区分能力
- 按类别划分的方法优于基于单个样本的学习策略, 其主要原因可能在于: 其中一些图像的身体部位先验信息可能存在不准确的情况; AT方法所提取的关键点特征不够稳定; 通过在每个类别中计算所有样本来求取均值的方式进行融合处理, 这种类级约束能够更好地抵消这些不足

效率的对比实验:
结果说明:尽管相比传统 PCB 设计方案,在参数规模上有所增加,并且在设计难度方面有所提升,但整体而言,计算开销并未显著放大。同时,该模型在性能指标上表现卓越。

现有方法对比实验
其余三个数据集结果,见原论文

