Learning Progressive Modality-Shared Transformers for Effective Visible-Infrared Person Re-identific
This paper introduces Learning Progressive Modality-Shared Transformers to achieve Effective Visible-Infrared Person Re-identification.会议信息为AAAI CCF-A.代码链接为https://github.com/hulu88/PMT.
摘要
网络结构:

渐进式学习策略:1)第一阶段,我们将灰度图像与红外图像导入由LID与LPHT指导下的权重共享Transformer架构中,实现模态独立的特征提取.2)在第二阶段,我们通过应用视觉图像与红外图像来优化与LMSEL及LDCL相关的模态共享特征.
Progressive Learning Strategy

可见图像为x^{vis};对应灰度图像为x^{gray};红外图像为x^{ir}.
在每个批量中进行操作时,我们首先随机采样P个不同的身份样本;对于每一个选定的身份样本,在其可见光域和红外域分别提取K张对应的图片。

D(.,.)表示距离度量,yi第i个图像的身份标签,[z]+=max(z,0),m是边距
第一阶段中,则选取x^{gray}与x^{ir}作为输入,在每个子空间内分别完成正样本与负样本的独立采样工作。借助LIntra这一框架设计,在后续的学习过程中将不再区分各子空间间的不同类别归属关系,并基于特征之间的距离来选择正样本与负样本。这样处理后不仅能够保留原始图像的关键信息,并且能够让模型更好地利用各子空间特有的信息资源进行学习。为了进一步提升模型的性能,在第二阶段中,则采用\{x^{vis}, x^{ir}\}作为输入,并通过更细致的角度充分利用各子空间特有的信息完成更为精细层次的学习任务。
Modality-Shared Enhancement Loss
MSEL旨在抑制不可靠特征,并提高可靠模态不变特征的有效利用程度。其中以背包为例,则属于不可靠特征的一种。我们分别用f^{ir}a和f^{vis}a来表示红外与可见光模态的锚点特征。为了保持一般性考虑,我们选取f^{ir}a作为示例进行分析。首先计算该锚点在内模态与交叉模态下与其他正样本之间的平均距离值,并将其标记为:


LMSEL通过强化Dintra与cross之间的差异来增强区分度。当判别性特征仅存在于单一模态时,这将导致Dintra与cross之间的差异显著扩大,在这种情况下LMSEL机制能够有效地捕捉到此类异常现象。在对Dintra与Dcross的双向优化过程中,在单一模态中仅存在的不可靠特征会被抑制而在两个模态中都存在的更为可靠的特征则会得到加强(如图4 (b)所示)。图5 (a)展示了MSEL算法的几何示意图它通过鼓励特征嵌入呈现均匀分布从而提升了模型的整体性能。


Discriminative Center Loss
DCL:利用中心实例之间的示例关系,增强可靠模态共享特征的判别能力。

我们旨在提取每个身份的鲁棒表征,并通过分析不同模态的数据特征确定其独特性指标。其中符号cyi代表第y个体在第i种恒等式下的特征核心位置

计算cyi到所有其他负样本的平均距离作为动态边界

LDCL定义如下,并且最小化第10项指标能够显著提升类内紧性和类间可分性。图5b展示了DCL的几何表示。

基于混合损失函数构建渐进式学习框架,在该阶段我们通过身份损失LID和LIntra来学习模态无关的特征

在第二个阶段,在这一阶段中我们进一步地从LMSEL中抽取具有可靠程度高的模态共享特征,并加强与LDCL的识别能力;损失函数如上所述;其中λ1和λ2分别用于平衡LMSEL项和LDCL项。
实验
数据集:

权衡参数λ1和λ2对性能的影响。在上面的子图中,λ2=0.5,λ1∈[0.1,0.9];在下面的子图中,λ1=0.5,λ2∈[0.1,0.9]
