19ICCV之REeID:RGB-Infrared Cross-Modality Person Re-Identification via Joint Pixel and Feature Alignm
RGB-Infrared Cross-Modality Person Re-Identification via Joint Pixel and Feature Alignment
当前的问题及概述 :
传统的方法主要是通过特征表示学习来弥补跨模态和特征对齐之间的差异,其基本思想是通过特征表示学习来匹配真实的RGB和IR图像。由于两种模式之间存在较大的交叉模态差异,因此很难在共享的特征空间中准确地匹配RGB和IR图像。
同时,Cross-Modality Person Re-Identification with Generative Adversarial Training 提出的CMGAN与本文同属于用GAN网络解决跨模态问题,但是CMGAN的rank1,mAP和ICCS(其中更大的ICCS值意味着更高的相似性):

研究表明,在多模态场景下进行测试的结果显示所提出的算法性能表现欠佳,并且难以有效地应对交叉模态变化
该论文开发了一种基于端到端框架的生成对抗网络(AlignGAN),专门针对RGB-IR重识别任务进行设计与实现。
该网络架构具有显著的优势:
其一,在该研究领域首次实现了两种校准策略的融合应用——即像素级对齐与特征级对齐相结合。
其二,在模型设计上采用了多组件结构:包括像素生成器、特征发生器和联合鉴别器等关键模块。
其三,在SYSU-MM01数据集上的实验结果表明:在rank -1指标上较 baseline提升了15.4%,同时在mAP指标上实现了12.9%的增长幅度。
如图所示:
(a)展示了特征对齐的具体实现过程;
(b)对比了基于像素级与特征级判别器的设计方案;
(c)则体现了联合判别器在跨模态匹配中的应用效果。

图1中,(a)特征对齐,(b)使用两个判别器对像素和特征进行比对。©使用联合鉴别器对像素和特征进行比对。
a 仅使用特征对齐,即CMGAN的思路,旨在混淆不同模态下数据的特征,让网络无法分辨出特征来自同一域或不同域。
b 利用生成的伪红外图像来弥补RGB图像与红外图像之间的差距。两个生成器分别训练两个鉴别器Dp和Df。通过Gp和Dp,可以生成伪红外图像,缓解像素空间的交叉模态变化。虽然生成的假红外图像与真实的红外图像相似,但由于视角变化、姿态变化和遮挡,仍然存在较大的类内差异。为了克服这个问题,采用了Gf和Df。因此,与(a)中仅使用特征对齐的模型不同,本模型是针对RGB- IR交叉模态识别,采用像素对齐和特征对齐的方法设计的。然而,这两种对齐策略是单独采用的,可能无法很好地互补和增强,从而获得身份一致的特征。
C :(AlignGAN)同时减轻交叉模态变化像素空间,不同模态的变异特征空间,以及保持的身份一致性特性RGB-IR交叉模式Re-ID任务。为了减少交叉模态变化,我们采用像素生成器Gp来生成基于RGB图像的身份保持伪红外图像。然后,利用基于身份分类和三重损失,利用特征生成器Gf将伪红外图像和真红外图像编码到一个共享的特征空间中,以减少模式内的变化。最后,为了学习识别一致性特征,我们提出了一种使Gp和Gf相互学习的联合鉴别器Dj。在这里,Dj以图像-特征对作为输入,将具有相同身份的真实的红外图像-特征对归类为1(real),其他的归类为0(fake)。相应地,Gp和Gf被优化以欺骗Dj。因此,来自不同身份的negative pairs被惩罚,maintain identity被显式地强制与对应的图像保持身份。通过Dj和Gp +Gf之间的max-min博弈,可以减少跨模态和模态内的变化,同时可以学习到身份一致性特征。
模型及loss :

AlignGAN分为三大模块:a pixel alignment module §, a feature alignment module (F)和a joint discriminator module (D),P可以生成假红外图像X红外减轻交叉模式变化,F可以减少跨模态差异,D可以获得身份一致性特性通过P和F两大模块互相学习和惩罚negative pairs。
1.P:

P模块属于一个基于CycleGAN模型训练生成跨模态图像,并同时通过cycle-consistency loss和identity loss进行训练;本文输入RGB图像经过GAN网络处理后生成伪红外图像;该模块已在Cross-Modality Person Re-Identification with Generative Adversarial Training一节中做过较为详细的介绍;

identity loss分为classify loss和triplet constraint loss:



2.F:

虽然P模块降低了交叉模态间的差异程度,在实际应用中仍会受到姿态变化、观察角度不同以及光照条件的影响而导致较大的模态内差异程度增加。具体而言,则是将基于P模块生成的伪红外图像与具有相同身份标签的真实红外图像作为Two-stream输入进行处理。通过深度神经网络(CNN)分别提取特征向量,并结合身份判别损失函数(identity-based classification loss)以及三元组损失函数(triplet loss)进行优化训练;其计算损失的方式如下所示:

为了提升特征间差异的判别能力,并引入GAN损失函数以优化模型性能。该方法旨在将输入图片(X)与其对应的feature map(M)配对,并区分真实红外图像与伪红外图像。因此,F模块的总损失为:F(X, M) = \sum_{i=1}^N f_i(x_i, m_i) + \lambda \cdot \text{KL}(p, q);其中f_i(x_i, m_i)用来衡量第i个分支网络对样本x_i和m_i的判别损失;λ是一个平衡参数;而KL(p,q)则表示两个概率分布之间的Kullback-Leibler散度。

3.D:

该模块由联合判别器(Dj)构成,并以其作为输入的是F的输出结果(即形成(image, feature)对(X, M),其中X代表图像特征),其输出则是一个逻辑值:1表示真实样本而0表示 fake样本。在实际应用中,则是将P模块与辅助生成网络F结合使用后能够欺骗判别器Dj这一机制得以实现。这种设计不仅可以显著提升P模块生成的人工红外图像及其特征与真实样本的一致性,
而且还能保证整个系统在对抗训练过程中的有效性。
其中D loss为:
L_{\text{dis}} = -\frac{1}{m}\sum_{i=1}^{m} [\log D(x_i) + \log(1 - D(f(x_i)))]

其中,

代表同一ID的real

代表同一ID的fake

代表不同ID的real
Pixel loss和feature loss为:

其中,

中X,M为同一ID,但X为fake,M为real

中X,M为同一ID,但X为real,M为fake

中X,M为同一ID,且都是fake。
实验 :
数据集:SYSU-MM01和RegDB
不同框架下的对比:

本文的不同变量的对比:

GAN网络生成的fake图像(第二行):

