Transferable Joint Attribute-Identity Deep Learning for Unsupervised Person Re-Identification
1.引入
在行人重识别领域采用无监督学习策略,在基于源域带标签的数据集提取行人在不同视角下的稳定特征描述子。随后将训练好的模型迁移至目标域,并使其能够适应无标签数据场景。
大多数现有的人员重新识别(re-id)方法都依赖于从每个摄像机对的一组大集合成标记得到训练数据来进行监督模型学习。然而由于需要跨越多个摄像头视图执行重新识别这一需求 这使得现有技术在现实世界中的大规模部署中缺乏足够的扩展性和实用性为此作者提出了一种创新性的深度学习方法 即**可转移的联合属性身份深度学习(TJ-AIDL)**该方法能够同时学习并适应转移到任何新目标域中的属性语义与身份识别特征表示空间而无需针对目标域添加新的监督训练数据。通过这种方法 作者成功地解决了传统技术在可扩展性方面存在的主要挑战 并显著提升了人员重新识别的技术性能与实用性
2 介绍
该方法展示了三种主要创新性贡献:(1)提出了一种新的研究思路——基于异构多任务联合深度学习(heterogeneous multi-task joint deep learning)框架,在无监督条件下实现行人再识别问题中的跨域迁移能力;这一创新性研究思路首次尝试通过融合属性标签与身份标签的联合深入学习方式来解决传统无监督行人重识别问题中的跨域挑战。(2)主要采用了可转让联合属性-身份深度学习框架(Transferable Joint Attribute-Identity Deep Learning —TJ-AIDL)并通过身份推导出属性 (Identity Inferred Attribute -IIA)的方式,在标注的源域人图像数据中实现了全局身份特征与局部属性特征的有效提取与优化融合;该技术特别针对臭名昭著的身份异方差问题设计了独特的方法论支撑框架,并通过同时交互式的端到端模型优化机制实现了对属性与身份学习任务的有效协同提升。(3)在此基础上进一步提出了在未标注目标数据上实现TJ-AIDL模型的无监督自适应属性一致性提升方案;这一创新性方法显著提升了该模型在未来各类目标域重识别任务中的综合适用性。
问题阐述:基于语义属性的无监督领域自适应行人再识别任务涉及以下核心要素:首先定义了一个带标注的源数据集\{(I_{i}^s, y_{i}^s, a_{i}^s)\}_{i=1}^{N_s},其中包含了N_s个带边界框标注的源图像I_i^s及其对应的行人在身份集合\{y_i^s\}_{i=1}^{N_s}中的索引标识(即共有N_{id}^s个不同的人体),以及每个行人由m维二元向量a_s ∈ ℝ^{m×1}表示的身份属性标签。其次还定义了一个未标记的目标训练数据集\{I_i^t\}_{i=1}^{N_t}用于模型训练。研究目标是在不依赖目标域具体身份信息的前提下,通过从源域获得有监督的身份知识与属性信息,在目标域实现行人的无监督再识别任务。该任务的关键挑战在于:(1)每个行人具有m个独立的身份属性类别(即多标签识别问题);(2)身份信息是全局图像特征而属性则是局部区域特征这一特性导致了学习空间的设计难度显著提升(即异构多任务学习问题)。

模型概览
IdA(Identity and Attribute)分支:作者采用了轻量化设计的MobileNet网络作为IdA分支在CNN架构中的核心组件。对于identity branches而言,所使用的loss function是cross-entropy loss function,该方法通过这种方式实现了有效的分类性能。

其中p_{id}(I_i^s,y_i^s)表示I_i^s的真实类别y_i^s的预测概率值,并且n_{bs}代表每一批次样本的数量。

其中,a_{i,j}和p_{att}(I_i,j)分别表示关于训练图像I_i的第j个属性的真实标签和预测概率。也就是说,a_i=[a_{i,1},…,a_{i,m}],p_{att,i}=[p_{att}(I_i,1),…,p_{att}(I_i,m)]。
可以看到,两个分支是独立地优化其各自的功能,而没有利用其互补效应来最大化兼容性(这种情况下,可能会遭受异方差问题的影响,最终导致结果不是最佳的)。
身份推测属性空间(Identity Inferred Attribute Space) : IIA空间是通过与两个分支协同学习形成的,并被巧妙地应用于从身份分支到属性分支的信息传递与整合过程中。在整个训练过程中,该方法注重知识的一致性和累积性融合,并在编解码框架中构建I2A空间,因为: (1)它具有强大的能力,能够通过简洁的特征向量表示精准捕获目标任务的关键信息; (2)更重要的是,一个简洁的功能表示不仅有利于任务间信息传递,还能为每个单独的任务保留足够的更新灵活性,作者称之为子模型I2A编码器-解码器(sub-model I2A encoder-decoder) 。
如图1(a)(c)所示,将身份特征x_{id}作为编码器的输入参数的同时,也作为解码器的真实数值输入端口,一旦提供输入数据后,该模型基于重建损失(MSE)就能够通过自监督学习机制进行有效的优化训练:

其中,
x_{id}代表用于训练图像输入特征,
函数f_{IIA}()负责完成基于身份识别(IIA)编码与解码之间的映射关系,
通过这一无监督学习行为,
从而得到潜在的身份编码器表示量。
鉴于此,在此研究中,
作者在该框架中引入了一种新的方法:
即在识别阶段使用二元交叉熵损失函数(Binary Cross Entropy, BCE)
结合全局位置感知网络(GPPN)
来提升目标检测性能。
同时采用均方误差(MSE)作为衡量身份转移损失的标准:
具体而言,
我们定义了一个新的损失函数:
L = \sum_{i=1}^{N} (y_i - \hat{y}_i)^2
其中,
y_i表示真实标签值,
\hat{y}_i表示模型预测值。

其中\widetilde{p}_{att}属于来自属性分支的logits(在知识蒸馏论文中定义为最终softmax层的输入)。

其中,p_{IIA}(I_{i},j)基于e_{IIA}的sigmoid函数预测的概率。
最后,总体的IIA损失函数是通过加权求和,将上述分量进行合并:

其中λ1和λ2是规模归一化参数,以确保所有三个损失量的价值是相似的规模。
该方法以身份特征为基础构建了IIA框架,并未对所述子树进行任何修改;相比之下,在属性分支中引入了一个新的学习限制以促进身份知识的转移。因此通过合并Eq.4重新制定了它的监督学习损失函数:

从整体上看,在模型联合训练过程中具有核心作用的信息流主要包括以下三个环节:首先,在这一流程中通过身份分支学习模块提取出用于区分不同个体的身份特征;随后将获取到的身份特征传递至属性分支;接着,在属性分支中进行特征提取与分类学习,并在此过程中综合考虑并整合相关的身份敏感特性。然而,在实际应用环境中难以避免存在的领域偏移问题使得基于标记的数据训练得到的TJ-AIDL模型无法完美适应未标注的目标领域中的识别需求。因此,在这种情况下为了实现更好的自适应性能就必须采取无监督的学习策略以解决这一关键问题

无监督的目标域适应 (Unsupervised Target Domain Adaptation) 是一种优化 TJ-AIDL 模型的方法,使其能够适应未标记的目标领域数据集。作者注意到,一个性能良好的 TJ-AIDL 模型应该能够在两个不同的属性视角之间表现出高度的一致性(即将属性分支的预测结果与 IIa 分支的嵌入视为来自不同领域的不同属性视角),基于这一发现,作者提出了"属性一致性原理"这一概念,该原理表明模型对特定领域的能力与其在两领域间保持一致性的程度直接相关,这在一定程度上体现了"循环一致性机制"的核心理念。为了实现这一目标,作者设计了一种自适应算法:首先,将源域训练好的 TJ-AIDL 模型应用于未标记的目标领域图像,从属性分支中获取属性预测值 p_{att,t};接着,利用这些软标签 p_{att,t} 作为伪标注数据更新属性分支和 IIa 分支参数,从而减少两领域间的attribute差异(如图2(b)所示);最后,基于目标训练数据对模型进行优化直至收敛
该模型的具体算法如下:

