论文阅读30 | Deep Multi-Patch Matching Network for Visible Thermal Person Re-Identification
Advanced Multi-Patch Matching Technique for the Re-identification of Human Targets in Infrared Thermal Imaging Systems
出处:IEEE TMM 2020
1.创新点
本文的核心创新在于将特征图进行水平分割成不同数量的水平条纹段域地学习粗粒度与细粒度特征信息的基础上
2.网络框架
本研究开发了一种多互补团匹配架构(MPMN),旨在用于提取跨模态图像中粗颗粒与细颗粒视觉语义特征。该网络主要包含两个关键模块:基于ResNet-50设计的一组残差块以及多互补团平均池化层(MPAP)。该方法采用将特征图划分为不同水平带宽的方式,在此过程中可动态提取各尺度空间中的互补空间模式。
首先,基于可见图像与热图像各自具有不同颜色通道的特点,在本研究中我们将其统一转换为单色灰度图。为了适应现有预训练模型的数据格式需求,在后续处理中我们将该单色灰度图通过复制一个通道至三个位置的方式进行扩展。
通过resnet50模型提取图像特征后, 将特征F按水平方向划分为g个条纹区域(其中g值从1变化至G), 从而解析不同层次的视觉语义信息.
随后采用传统的全局平均池(GAP)将每个区域映射为g个局部特征向量。这样可以计算出共有N = G(G+1)/2个不同的局部特征向量。所有这些局部特征经过一个全连接层(FC)与批量归一化(BN)处理后,使得每个feature dimension从D减少到D/N。最后将所有局部编码器输出连接在一起形成最终的编码器输出表示(其维度仍为D)。

3.损失函数
在训练过程中需要配置损失函数以用于调整网络权重参数。每个补丁(即N=G(G+1)/2)都需要设置三个不同的损失函数,并将它们加权汇总得到最终的损失值。
(1)三元组损失
假设每个特征图均被划分为N块。通过GAP、FC和BN等操作生成N个特征向量。随后再求每个特征向量对应的三元组损失,并将其加权相加作为总的三元组损失值。(其中权重由PAPA提供,并用j表示第i个分割区域(patch))


(2)多补丁模态对齐(MPMA)
VTReID的一个主要难题在于两种模式的特征分布可能存在显著差异这会严重影响模型的整体泛化能力并且导致收敛速度较慢进一步说明在输出特征后直接施加模态对齐约束可能会带来负面影响因为难以确定哪一维数维度能够最好地捕捉到最大的模态差异
因此,在这种情况下(...),该方法需要特定维度的对齐行为 ,以便专注于最能减少当前分布差异的关键维度。值得注意的是,在传统的VTReID方法中仅考虑全局特征间的模态差异(...),而忽视了局部区域内的模态间隙(...)。由于这一未能考虑到的因素的存在(...),因此局部特征的模态分布 可能无法有效地实现对齐(...),从而可能导致整体跨模态性能的质量下降。
针对上述问题而言,在本研究中我们提出了一种多补丁模态对齐损失方案。该方案旨在平衡并减少不同补丁之间的模态差异。具体而言,在构建了一个由MPMA损失训练的轻量级模块对准器的基础上,并通过挖掘一个具有显著大模态差异的特征子空间来实现模块间的对比学习,在这个过程中实现了模块间的对比学习效果提升。
Enhance Subspace Discrepancy(训练模态对准器):The paper employs an FC layer with dimension P = C/4 as a modality alignment module. To investigate the feature subspaces with significant modality discrepancies, one straightforward and effective approach is to learn the optimal modality alignment module that maximizes the subspace modality discrepancy. Note that the gradients are only propagated backward to θA, while the primary network θF remains unchanged. By maximizing the following equation, we can make the feature distributions of different patterns in their respective subspaces more distinct. Here, k and l denote different IDs.

Minimizing the Subspace Discrepancy (training the backbone network): after achieving the optimal modal alignment, it becomes necessary to minimize discrepancies within the subspace. The gradients in this equation are exclusively propagated backward through the backbone network θF, while the auxiliary network θA remains fixed. Only updating and training the backbone network allows for acquiring features with modality-independence characteristics.

Adversarial Subspace Learning(对抗子空间学习):通过联合优化这两个等式,并因这两个目标函数的优化方向相互对立而形成一种极大极小博弈模型,并最终导致了一个具有对抗性的学习问题

(3) 跨补丁相关性蒸馏(CPCD)
一般来说,在一定程度上具备较强的稳定性(鲁棒性),但在某些特定方面的能力较为有限(鉴别能力较弱)。相反地,在另一些方面则展现出显著的能力优势(鉴别能力较强),但却牺牲了稳定性(鲁棒性能)。因此,在合理运用跨块间相关性的前提下,则可以让两种特性得以互补(互相补充)。基于知识蒸馏原理的前提下,则提出了一个基于跨区域相关性的蒸馏损失模型(Cross-Patch Correlation Loss Model),该模型能够将一个块中的语义信息转移至另一个块中以增强其表现力(expressiveness)。根据不同块之间两特性对之间的相似程度,则划分出两类相关关系(correlational relationships)
Positive Cross-Patch Correlation: 假设从第k个patch获取pair (fak, fbk),从第j个patch获取pair (faj, fbj),其中a等于b——因为它们均源自同一图像对(xa, xb)。由于这两个patch对应的两Patch特征间存在显著关联关系——其差异应具相似性。我们预期同一图像对应两Patch特征间相似度差异不超过预设阈值m. 其中k和j分别表示所考察之Patch序号.

Negative Cross-Patch Correlation:假设有两组不同的块对比(fak, fpk)与(faj, fnj),其中图像a与p具有相同的ID标签,而图像a与n则属于不同的ID类别。则对于跨不同ID的块对比而言,在其相似度值上应显著高于其内部配对情况。

将正负跨补丁相关性联合起来,一起优化

(4)补丁注意力权重(PAPA)
为每个补丁分配总损失权重,并根据其难度动态调整各补丁所赋予权重大小以设定各任务的重要程度。其中针对每个补丁定义的重要度指标λj,并采用三元组误差E_j = Ne / Nt作为衡量任务难度的标准。Nt表示所有输入三元组的数量而Ne则代表违反margin边缘约束条件下的三元组数量。
采用归一化三重误差计算方法,在本研究中定义Nn为训练过程中的全部 epoch 数量,在每一轮迭代中n则表示当前所处的 epoch 位置。实验结果表明,在模型刚开始训练时σ(n)值相对较小,并且会对所有类型的补丁一视同仁地进行处理;然而随着网络模型逐渐完成迭代优化过程,在较为复杂的区域则会被赋予更高的权重系数

(5)总损失

4.实验指标


