2020 AAAI之ReID:Attend to the Difference: Cross-Modality Person Re-identification via Contrastive
当前的问题及概述:
本文针对此问题,在feature embedding领域中发现以往研究大多依赖于GAP与全连接层的结合,并输出固定维度的空间向量(如1×1×2048),这种处理方式无法充分捕捉目标对象的空间细节特性。鉴于人类观察物体时普遍关注其形态上的细微差别这一认知特点,本研究创新性地提出了一个双路径交叉模态特征学习框架以解决上述挑战。
该框架由两大核心模块构建:一是Dual-path Spatial-structure-preserving Common Space Network(DSCSN),能够将多模态图像映射到三维张量空间而不损失空间信息;二是Contrastive Correlation Network(CCN),则通过对比分析输入图像对来提取对比特征信息。
模型及loss :

本文所提出的框架主要由两个关键组件构成:双路径的空间结构保持公共空间网络(DSCSN)以及对比相关网络(CCN)。具体而言,在DSCSN中,在不丢失原有空间结构的前提下实现交叉模态图像的嵌入。其中CR与CI分别表示从RGB图像与IR图像输入至公共空间特征的变换函数R与I;FR与FI则代表提取出的共同特征。
本模块的主要目标在于提取输入RGB和IR图像三维卷积特征图形状的共同特征。通过双分支架构分别提取两种模式下的特征信息,在经过公共特性嵌入阶段后可获得两者共有的特性表示。

可以看出,在相关文献中提出的一种基于单维特征向量提取的功能函数所形成的双路径结构与本文中的该模块所提取的三维特征张量存在显著差异。值得注意的是,在本文中该模块不仅保留了一定的空间结构信息,并且更为关键的是为后续引入的对比关联网络提供了一个更为完善的公共空间表徵基础。
随后,在计算两组个性化权重参数间的差异时,默认以R类样本为例:每个权重参数旨在表征人图像R中的局部特徵。通过从FR样本集中采样得到位于(i, j)位置上的权重参数矩阵:

采样与卷积的本质区别在于后者缺乏参数运算 。其中Kij R是从FR中裁剪出的一组局部patch,在这里hT代表局部patch的高度,wT代表局部patch的宽度,(i, j)是FR坐标系中的一个点,cropping运算用于将目标区域转换到计算域中的对应位置,如图所示,公式3中的KR表示从FR中采样的一组内核:

stride v 和 stride h 分别代表垂直方向和平移方向上的步长,在 FR 区域(尺寸为 8×4×2048)上滑动完成采样操作。 通过这种机制设计,在三维公共特征张量中提取出具有独特个人特征的人脸区域,并且该方法能够有效地消除光照变化、姿势差异以及视角变化等因素所带来的影响。 RGB (IR) 图像对比内核则是一体化生成的过程,在这一过程中我们关注的是输入成像对之间的一致性问题。 为了实现两个图像之间的个性化内核差异性目标, 我们将对比内核定义为:

2.2 对比相关模块:基于对比内核的相关性处理技术提取出两组图像间的动态对比特征,并对FR与FI之间的相关性进行了详细评估,并对结果进行了KRI方法的比较分析

向量积运算符代表的是向量之间的运算方式。相关操作即为卷积运算。其计算结果数值越大,则该两个向量之间的相似程度越高。如图所示

在获得R与I的对比特征向量后,在全连接(FC)层中运用sigmoid函数来计算这两个向量之间的差异得分DIR与DR;其中WD表示全连接层的权重参数:

Sigmoid函数为:

然后计算两个差值分数的平均值:

2.3 Overall Loss Function:
提出了Pairwise BCE损失和ID损失作为整体损失函数的主要组成部分。
其中,在同一人的DRI差异期望为0,在不同人的DRI差异期望为1。为了实现同一人之间差异的最小化以及促进不同人之间差异的最大化过程,则采用了基于二元交叉熵损失的方法即Pairwise BCE损失:

在本研究中,lRI被定义为输入RGB-IR person pair的标签。当lRI等于0时,则表示I和R是同一人;而当lIR等于1时,则表示I和R是不同的人。M则代表person pair的数量。通过全局平均池化操作后得到FR和FI两个特征图,在此过程中分别获得I对应的全局特征GI以及R对应的全局特征GR。对于每个人而言,在不同的姿态、光照或视角变化的情况下(即不同的外部环境条件),其自身特性表明其特征应保持高度一致性。基于这一假设,在计算全局特征的基础上进行识别损失评估(ID loss),具体计算式如下所示:

其中WID代表的是ID loss的最后一层全连接层权重参数,p_R与p_I分别对应于R与I预测结果的概率分布,C则表示人体的身份数量,y_R与y_I分别指的是基于one-hot编码后的身份标签,N则表示每一种模态下的样本数量,总损失函数为:

实验 :
数据集:RegDB和 SYSU- MM01
不同框架的测试结果:

消融实验:

其中用‘w/o ID’指代未采用ID损失的情况。S/F用于区分简化的版本与完整的版本。完整版本采用DRI作为衡量两张图片之间相似程度的标准(如Formula 12所示)。当DRI数值较小时,则表明两张图片间的相似程度较高。简化版本则基于全局特性和GR、GI计算查询与数据库中图片间的余弦相似度(如Formula 13所示)。此方法无需涉及PBCE损失函数

针对Sample操作中,在FR维度上表现为8\times 4\times 2048的空间结构下使用3\times 3的窗口进行遍历,在步长设置为1时能够得到对应的kernel数量达到12;而当步长设定为2时同样地能得到对应的kernel数量减少至$8\ldots 依此类推可以看出在step取最小值的情况下能够获得最多的kernel数目对应最佳效果
