Unsupervised Person Re-identification via Multi-label Classification
年份:2020-CVPR;论文:Unsupervised Person Re-identification via Multi-label Classificationhttps://arxiv.org/pdf/2004.09228.pdf;本文涉及的多个研究方向均与参数设置密切相关
文章目录
-
- 概述
-
- 引论
-
- 相关研究
- 无监督的人脸识别(Unsupervised face recognition)
- 无监督特征提取(Unsupervised feature extraction)
- 多标签识别系统(Multi-label identification system)
-
4.方法
- 4.1 公式
- 4.2 基于记忆的真实标签预测(Memory-based Positive Label Prediction)
-
- 1.通过相似性得分过滤标签(Label filtering by similarity score)
- 2. 通过循环一致性过滤标签(Label filtering by cycle consistency)
- 4.1 公式
-
4.3 基于记忆机制的多标签分类损失
-
1. 传统多标签分类损失模型
-
2. 基于记忆机制的多标签分类损失
-
讨论部分
-
4.4 带标签数据集的迁移学习(Transfer Learning with Labeled Dataset)
-
5.实验
-
- 5.1数据集
-
-
- MSMT17(2018-CVPR)
-
-
-
5.2 实验设置
-
5.3 参数优化
-
-
- 相似度阈值 t
-
-
- 正则化系数 δ
-
- 难样本采样率 r%
-
5.4消融实验
-
- Effectiveness of MPLP
- Effectiveness of MMCL
-
5.5 与其他方法比较
1.简介
无监督系统进行重新识别(ReID)面临的主要困难在于无法直接学习具有鉴别能力的真实特征。本文将无监督行人重识别问题转化为多标签分类任务 ,通过系统地推导出这些真实的标签。
- 该方法首先为每个用户的图像赋予一个单一类别标签,
然后基于更新的ReID模型实现对目标物体的识别与定位,并同时完成多标签分类。
标签预测主要涉及相似度计算以及循环一致性机制 ,旨在确保预测出的理想化标签质量。为了进一步提升ReID模型在多标签分类任务中的训练效率** ,我们开发出了基于记忆机制的多标签分类损失(MMCL)。该损失函数被整合到基于记忆机制的非参数分类器中,并与多目标与单目标分类技术在一个统一框架下协同工作** 。该联合框架能够反复迭代优化自身参数直至收敛,在此过程中不断精进模型性能直至达到最佳状态。通过多个大型Person ReID数据集上的实验测试,在无监督学习场景下展示了我们的方法在无人监督Person ReID中的显著优势** 。此外,在迁移学习设置下引入带标记的人脸图像后,在性能指标上实现了最新的突破。
2.导言
先前工作的缺陷
无标记条件下的人行者识别系统的目标是通过未标注图像学习区分特征 。相较于有标签的学习框架,在无标签条件下可减少数据标注的成本,并更有效地促进Person ReID技术在实际场景中的应用。
然而,在这一过程中面临的主要困难是如何从未标注数据中提取有效的判别特征。
最近研究大多将这一问题建模为迁移学习框架下的初始化过程,并通过跨域标记样本信息对网络进行预训练以提升识别性能。
尽管如此,在有标签与无标签框架之间的性能差异仍然显著存在。此外,在迁移学习环境下网络结构往往趋于保守。
本文方法解决的问题
本文的目标是
在不利用任何标记数据 的情况下提高无监督的Person ReID 。
将每个未标记的行人图像归类为一个类别,并进行ReID模型的训练以实现为每个图像分配多个标签的目的。具体而言,在ReID模型中通过多标签分类的方式使每个图像被划分为属于同一身份码的不同类别。由于每个人通常拍摄了多张照片,在这种情况下多标签分类不仅能够有效识别同一身份码的所有相关图片,并且能够明确区分不同身份码之间的差异这一特性有助于提升ReID模型对类别间及类别内部距离的优化能力。与以往仅将每幅图片归于单一类别的方法相比,在保持同样准确率的前提下该方法不仅提升了处理速度而且显著降低了误识别率
该方法迭代地预测多类标签,并以多标签分类损失更新网络 。
该方法基于memory提出了一种正标签预测(MPLP),该方法考虑到标签预测中的视觉相似性和循环一致性。具体来说, 如果两个图像:
(a) 具有较大的视觉相似性,
(b)具有类似的邻居,
则会采用相同的标签进行标注。
该方法通过存储在memory中的图像特征, 在每一次训练迭代中结合增强后的特征进行更新, 从而提升特征提取的有效性。
b. 为了构建性能优异的分类器并解决传统多标签分类损失中存在的梯度弥散问题 ,本研究提出了基于记忆机制的改进型多标签交叉熵(MMCE)方法。
针对允许输出多个标记的卷积神经网络(CNN)设计 ,该方法通过将输入空间划分为独立类别来规避全连接层(FC)结构带来的性能瓶颈。
如图2所示。
通过从记忆单元中提取各输入图像的关键特征进行表征 ,本方法实现了高效的端到端学习框架。
具体而言 , MMCE 采用了一种新的目标函数设计策略:
避免使用Sigmoid激活函数 , 将输出分数固定为最大值或最小值,
从而显著提升了计算效率的同时成功抑制了传统交叉熵方法中常见的梯度消失问题。
同时结合难样本挖掘技术 , MMCE能够有效平衡类别分布不均衡的问题。

3.相关工作
相关研究领域对无监督方法的探讨较为深入,并着重阐述了其应用范围与技术特点。具体包括三个关键方向:基于无监督的人体识别技术(ReID)、非监督式特征提取方法以及多标签分类体系。
无监督Person ReID(Unsupervised person ReID)
无监督Person ReID可归纳为三类。
第一 类利用人工标注的特征 。 然而,手工设计鲁棒和判别特征是困难的。
第二类基于聚类估计生成的伪标签来训练CNN的方法。然而,此类方法通常依赖于高质量的预训练模型。
第三类基于转移学习改进无监督Person ReID。一些研究采用了转移学习方法,并通过引入额外的属性标注来减少不同属性间的差异。
本文方法不同于其他现有技术, 不依赖任何标记数据. 相比许多迁移学习方法而言, 其性能表现更为出色.
无监督特征学习(Unsupervised feature learning)
无监督特征学习的主要目标是降低基于标记数据进行特征提取的依赖。它不仅适用于多种应用场景,并且还可以提升模型在多任务学习中的表现。
一些工作采用无监督特征学习作为神经网络初始化的方式。
一些作品开发出无监督特征学习以获取图像分类和检索的特征。
吴等人将每个待识别的图像单独归类为一个类别,并提出了一种基于非参数Softmax分类器的方法用于训练CNN模型。
与以往方法不同的是本研究采用了多标签分类策略,
这对于实现同一ID图像的识别以及区分不同ID间的图像具有重要意义。
多标签分类
多标签分类旨在处理具备多个类别标签的任务。本文采用多标签分类技术来进行多类别标签的预测,并重点探讨了人ReID的学习ID特征 。据我们的研究发现,这是首个在无监督学习框架下应用person ReID的人工智能系统。
4.方法
4.1公式
给定一个无标签行人数据集X = \{x_1, x_2, \dots, x_n\} ,该算法旨在利用X训练ReID模型用于行人识别任务。对于任意输入待检索的单个人像数据q ,预期该ReID模型将提取特征向量q\_vec作为输入,并通过在 gallery 集合G中搜索与q\_vec具有最大相似度的目标样本g\_target来实现匹配。换一种说法,则要求该ReID模型能够确保提取的特征向量q\_vec与目标样本g\_vec在表征空间中具有更高的相似度。从概念上讲 ,人 ReID 的目标即为建立这样的映射关系:对于任意查询样本q\_vec, 系统应能找到与其最匹配的目标样本g\_target.

其中f\in\mathbb{R}^d是基于Person ReID模型提取的d维L2归一化特征向量。dist(\cdot)代表距离度量方法之一如L2距离。
在训练数据集X中, 我们首先将每个输入图像分别视为独立类别处理, 并对样本x_i赋予对应的伪标签y_i。
通过这一伪标签机制, 我们能够将原始数据集X转化为带有伪标签的数据集, 从而便于对ReID模型进行训练。
其中,y_i被初始化为一个二元向量, 其中仅第i个元素设为1其余元素均设为-1即:

考虑到每个人在数据集X中可能有多张图像,初始标签向量无法有效表示人身份提示。
需对每个图像分配多个类别标签,并将这些标签用于基于多标签分类损失的ReID模型训练。
可利用xi的特征fi去推断其他图像的特征以确定xi的标签,并识别一致的特征组合。
鉴于X中图片类数目庞大,训练多标签分类器十分困难。
其中一种有效的方法是将fi用作i类别的分类器。
这计算任何图像xj 的分类分数为

其中 c j 表示 x j 的多标签分类分数。
很容易看出,标签预测和多标签分类都需要 x中图像的特征 。因此,引入了一个 n x d 大小的memory库 M 来存储这些特性,其中 M [i] =f i。利用 M,分别提出了用于标签预测的基于memory的真实标签预测(MPLP)和用于ReID模型训练的基于memory 库 的多标签分类损失(MMCL) 。
如图1所示 ,MPLP将单类标签作为输入,并根据memory–M输出多标签预测y¯i,即:

该方法基于图像特征f、标签\bar{y}以及内存库M作为参数来计算多标签分类损失。经过计算得到的损失L_{\text{MMCL}}可以表示为:

其中M, X, f_i用于生成分类得分,在公式(2)的基础上通过比较生成分类得分与真实类别标签来计算损失函数。

其中 superscript t denotes the t-th training epoch. \alpha represents the update rate. 然后对 M_{i,t} apply L2 normalization to achieve a unit vector.
不言而喻地讲来,MPLP和MMCL各自依赖M以分别获取可靠的标签与分类分数。
本文通过多样化的数据论证手段来提升M的能力。
更具体地说,每个M[i]整合了x_i形式的增强样本特征,从而展现出更强的抗干扰能力。
详细讨论将在第二部分展开。
MPLP综合考量相似性和循环一致性用于预测y i ,从而使得其预测结果优于分类得分。这导致通过求解等式(5)所定义的损失函数能够有效提升ReID模型性能,并进一步促进标签预测过程中的正向反馈机制发挥作用。这一循环机制不仅能够提高模型性能,在无标签数据集上也能训练出具有区分度的ReID模型。建议读者在后续部分中可以找到对MPLP和MMCL的具体实现细节。
4.2 基于Memory的真实标签预测(Memory-based Positive Label Prediction)
如等式(4)所示。

基于图像 x_{i} 的初始二分类结果 y_{i}, MPLP 的主要任务是识别 x_{i} 可能所属的其他类别. 对于每个样本点 x_{i}, MPLP 首先通过分析其与其他特征间的相似程度来计算 rank 列表 R_{i}.

其中 s_{i,j}代表 x_i 和 x_j 的相似性分数。
R_i能够识别出与样本x_i具有高置信度的可靠标签候选项。
然而光照条件、观察角度以及背景的变化会影响其稳定性。
具体而言,在排序列表顶端可能出现噪声类别的干扰。
为了保证预测结果的高度准确性,
MPLP算法通过计算标签之间的相似度得分并验证其一致性来实现优化。
1.通过相似性得分过滤标签(Label filtering by similarity score)
首先基于x i 的排序结果为xi选定正类标签。参考文献[39]中提出的方法通过设置预设的相关性阈值来筛选候选关键词进行查询。基于预先设定的相似度阈值来确定候选关键词集合。给定一个相似度得分阈值t,在筛选出的相关关键词中去除得分低于t的部分即可获得k_i个候选关键词集合。

其中Ri [ ki ]是相似度得分高于 t 的最后一个标签,Pi 是 x i的标签候选集合。这在很大程度上决定了候选标签的数量。(将在第4.3节中进行测试)。
等式(9)自适应地为不同图像找到不同数量的候选标签,这比选择固定数量的标签(即图2中的KNN)更好 。我们着手引入循环一致性从Pi中找到正标签。

2. 通过循环一致性过滤标签(Label filtering by cycle consistency)
基于k倒数最近邻居的概念,推导出:如果两个图像被归为同一类别,则其对应的neighbor图象集合应具有相似性。由此可知,在拓扑结构上具有一致性的两幅图在分类时应当被赋予相同的标签信息。因此,在构建分类器的过程中需要考虑这一内在属性特性。基于此直觉提出了一个循环一致方案用于筛选P_i中的硬负样本。其中,MPLP算法将依次遍历Pi中的所有标签节点,并针对每个标签节点j,MPLP算法通过公式(7)进行处理。

计算其最接近的 top-ki 标签。
- 当j是i的top-ki标签之一时,则j被视为x_i的正标签;否则被视为hard negative label。
- 一旦检测到第一个hard negative样本就停止训练;这不仅影响了正样本集合Pi和对应的图像x_i的negative样本选择策略。
我们采用这种策略来设定positive样本集合。

其中 l 满足:

由于Pi_ 包含 l 个标签,因此 x i 将被分配带有 l 个正类的多类标签 y¯ i ,

如图2所示,MPLP 预测准确的正标签。
4.3 基于Memory的多标签分类损失
1. 传统的多标签分类损失(Traditional multi-label classification loss)
传统的多标签方法涉及将多个类别同时标记到输入数据中,在传统设置下,Sigmoid函数与Logistic回归作为常用的二元分类工具,构建了一个有效的二元交叉熵损失函数,其中每个类别对应一个独立的一元分类器,用于评估图像xi被归类为j类时所造成的损失值

其中 M[j]T 用于计算第 j 类图像 xi 的分类分数,则 y¯i [j] 表示第 j 类图像 xi 的标签。在单个类的损失下(即对于每个单一类别而言),可以在其对应的损失函数下可获得多标签分类(MCL)损失(记作 LMCL)。即 LMCL 指的是多标签分类下的联合损失函数:LMCL = \sum_{j=1}^N \mathbb{E}_{(x_i,y_i^j)}[\log P(y_i^j|x_i)]

n 表示数据集 X 中图像的数量,等于所设定的类别数量。然而这些损失项存在不足。
问题一
由于 M[j] T 和 f i 被 L2 标准化处理后,在区间 [0, 1] 内限定了分类分数的变化范围。这使得方程(12)中的 sigmoid 函数应用范围受到影响。即使对于正确的分类结果也被赋予了一个非零的损失值**。** 通过在计算过程中引入一个可调节的参数 τ 可以有效缓解这一缺陷
公式(12)更新后的结果为:

将相应的 MCL 损失表示为 LMCLL-τ。LMCLL-τ 的梯度可以计算为,

与等式 (15),说明了当图3中y[j] = 1时具有不同τ值的LMCLLτ的梯度。

从图表中可以看出,在分类得分超出±0.25的范围时……
问题二
另一个 MCL 的缺失问题在于该算法的任务涉及大量类别而造成正类与负类之间的失衡。在等式(14)中对这些负类别给予同等重视可能会引发模型崩溃的风险。为此,我们提出了一种改进型的 MCL(MMCL)来解决这些问题。
基于内存的多标签分类损失函数
MMCL 是为了解决传统 MCL 中的两个问题。
考虑到分数范围在[-1, 1]之间,并不采用sigmoid函数;而是通过将分类分数回归至1和-1来直接计算损失。这种方法不仅简化了损失计算过程,并且提升了训练效率。对于图像xi被分类到j类的情况下的损失值,则可重新表述为:

其中 fi 是图像 xi 的特征。
第二个主要问题是正类与负类间的不平衡性。MMCL采用了硬负样本(Hard Negative Samples)来缓解这一问题。这一策略源自深度度量学习中基于样本挖掘的技术框架;硬负样本能够提供更多具有区分度的信息。同样,在我们的多标签分类任务中, 模型应优先关注具有挑战性的(Hard Negative)类别而非容易区分类别。
对于每个实例xi来说, 其对应的负类别集合N−i可以被定义为...

我们按照它们的分类分数排列顺序对它们进行排序,并筛选出top r%类作为hard negative classes。 xi 的 hard negative classes 集合可以用数学符号表示为:

MMCL是一种基于positive classes和sampled hard negative classes的计算方式。具体来说,它是通过这些类别进行分析得到的结果。

其中δ被定义为评估正类损失和负类损失权重的重要参数,在实验阶段将被实施。
在图3所示的情况下,
同样地说明了LMMCL梯度的方向,
其中LMMCL梯度的方向可以通过以下公式计算:

3.Discussions
对比图3中的MCL和MMCL方法进行分析。结果显示MMCL有效地解决了消失梯度问题。因为梯度消失特性,MCL-τ方法不会迫使分类器对分数较高的正样本进行分类,这反而不利于降低类内方差。由此可知,在ReID模型优化方面MMCL的表现优于MCL。从图3可以看出,δ参数对于控制MMCL梯度幅度的变化程度具有重要作用。如前所述,均方损失在这一方面表现不如基于对数损失的方法。通过调节MMCL梯度幅度的变化程度,能够有效缓解当分类分数接近决策边界时可能出现的问题。引入硬负样本挖掘策略后,MMKL不仅适用于多标签场景,同样也能应用于单标签场景,其中类别不平衡问题依然存在挑战。与交叉熵损失及MCC方法相比,MMKL去除了传统的Softmax和Sigmoid激活函数,从而显著提升了计算效率。现有解决方案主要包括分层Softmax机制以及噪声估计方法;而由于MMKL完全避免了Softmax计算过程,因此上述问题不存在于该框架中
4.4 带标签数据集的迁移学习(Transfer Learning with Labeled Dataset)
该方案也与迁移学习设置相容。

性能在实验部分进行测试。
5.实验
5.1数据集
Market-1501系统是由来自六个互不重叠摄像头视角下的数据集构成,在其中包含了总计32,668张标注行人的图像样本。
DukeMTMC-reID数据集则由配备八个摄像头并标记为身份唯一性的样本构成,并包含共计404个不同身份标识符对应的图像样本。
MSMT17(2018-CVPR)
MSMT-17 是一项最新发布的行人识别(ReID)数据集。它基于5个摄像头采集了约 23,998 张具有独特身份信息的人行图像(共4,083人)。这些图像在光照条件多样化的情况下捕捉了丰富的场景变化。
该数据集因其显著的变化范围和光照条件而更具挑战性,在性能上优于其他两个公开可用的数据集。
这三个公开可用的数据集均是在相似的环境下采集的(均为校园环境),因此为迁移学习提供了良好的基础以实现有效的迁移学习。
5.2实验细节
1 .使用 ResNet-50 作为骨干提取特征,并用在 Image Net 上预先训练的参对网 络进行初始化。在pooling-5 层后,删除后续层,并添加 一个批处理归一化层(BN) ,该层产生 2048-dim 特征.在测试阶段,采用pooling-5层特征进行距离计算。
2. 对于多标签分类,分配一个memory bank来存储 L2 归一化图像特征。memory bank被初始化为零,当memory 被完全更新 5 次(5 次后)时,开始使用 MPLP 进行标签预测 。
3. 输入图像的大小调整为 256*128 。 我们使用 SGD 对模 型进行优化,ResNet-50 基础学习率为 0.01,其他为 0.1。 memory更新速率 a 从 0 开始,线性增长到 0.5. 对模型进行了 60 个epochs的训练,学习率在 40 个epochs之后除以10。 batch size=128。将 MPLP中的相似阈值 t 修正为 0.6。在 MMCL中,权重 δ固定为 5,选择了排名最高的top 1%negative classes,以通过第4.3节中的参数分析来计算损失。
5.3参数分析
本节将深入探讨该方法中的关键超参数设置。其中包含了MPLP框架中的相似度评分阈值t、模型权重衰减因子δ以及MMCL算法中的硬样本挖掘比例r%。在每次实验中仅调整单一超参数的数值,并保持其余参数恒定。
1.Similarity threshold t

图4研究了MPLP中相似阈值t的影响 。 本文将t从0.3~0.7进行变化,并测试模型的性能。
低相似性得分 t 会降低模型性能 。 例如,当t在[0.3,0.5]范围内时,与较大的t相比,可以观察到性能大幅下降。这是因为,低相似性阈值引入了许多negative labels 。随着 t 变大, 可以选择更精确的标签。 然而,过大的 t 会减少labels的选择数量 。对于Market-1501 and DukeMTMC-reID.,最佳 t 为 0.6。 因此,本文设置 t=0.6.
2.Coefficient δ

表1总结了MMCL系数δ的分析结果。 在第3.3节中提到, δ对MMCL的梯度有一定影响。 当δ=1时, 表示我们未对梯度进行缩放。 在这种情况下, 在MMCL下无法生成足够大的梯度来将正样本聚在一起而导致性能不佳。 例如, 在Market-1501和DukeMTMC-reID数据集上进行实验时发现, rank-1精度下降到59.3%。 随着δ值增大, MMCL能够有效提升正样本之间的相似性, 从而获得了更好的性能表现。 然而, 大过限度的δ值可能导致训练过程不稳定。 根据表中的分析结果, 我们最终设置δ=5进行了参数优化设置并取得了满意的效果
3.Hard negative mining ratio r%

图5展示了网络训练中hard negative mining比例r%的影响。当r=100时意味着使用所有negative类别进行损失计算。值得注意的是当r=100时对性能的影响是不理想的。这表明并非所有的negative类别都对无监督的ReID训练有益。当r减小时会促进negative类别被激活从而提升性能然而如果r过小会导致选择的negative类别数量不足也不利于性能提升。通过图5可以看出在实验中采用r=1可以获得更好的效果
5.4消融实验
本研究通过对监督学习、MMCL+单类标签以及 MMCL+MPLP 进行对比分析,并对 MPLP 和 MMCL 的有效性进行了评估。实验结果显示

其中ImageNet预训练模型的性能记录作为基准开展研究。 表中列举了多种监督学习方法及其应用效果,在市场场景下的识别精度高达87.1%(Rank-1),平均精度(mAP)达到68.3%。 然而,在市场场景和dukeMTMC重识别任务中发现ImageNet预训练模型表现欠佳。 通过引入单类伪标签到MMCL框架中进行优化实验表明,在利用未标记数据集提升模型性能方面具有显著优势。 实验结果表明,在市场场景下应用优化后的MMCL框架可使Rank-1准确率达到80.3%,较基准方法提升了近92个百分点(从7.8%提升至80.3%)。 同时对比表2中的数据可知,在CamStyle改进下各指标表现进一步优化。 该改进方案凸显了数据增强技术的关键作用。
Effectiveness of MPLP
为了考察MPLP在标签预测任务中的适用性, 该研究采用了与现有几种标签预测方法进行对比分析的方法。 采用KNN搜索策略, 并结合相似性评分(SS)进行筛选, 是实现有效标签识别的关键环节。 实验结果展示于表3(a)中, 其中可以看到当设置参数K=8时, 在Market-1501数据集上实现了73.3%的rank1准确度及35.4%的mAP值。 进一步分析发现, 通过基于相似度分数(SS)选择正标签的方式, 在性能上显著优于固定数量的KNN策略。 此外, 表现优异的结果还表明, 将一致性得分与相似性得分类别相结合的方式, 在提升预测标签质量方面表现更为优异。
此外, 图2直观展示了通过MPLP实现的最佳标签可视化效果。

Effectiveness of MMCL
旨在评估MMCL的有效性。本次实验中,将该方法与其在不同训练设置下的交叉熵(CE)损失进行对比分析。实验结果的具体内容将在表3(b)中呈现。
采用单类标签对MPLP和CE进行模型学习测试,并评估其性能表现。实验结果表明,在Market-1501基准数据集上,MMCL达到了显著的表现,并且显著优于CE。
然后通过利用学习生成的 ground truth标签进行进一步测试MMCL与CE的表现
通过MPLP预测的方法对标签进行测试,并评估其性能指标MMCL和CE。其中MMCL的表现显著高于CE。值得注意的是,在评估过程中,MMCL采用了非参数分类器来进行训练。
通过表2所进行的监督学习活动,在监督学习过程中仍然展现出良好的性能水平。表3(b)验证了MMCL的有效性以及我们所提出的训练策略的有效性。
5.5 与其他方法比较
基于Market-1501数据集,在两个关键的数据集中,本文的方法与最新的无监督学习和迁移学习方法进行了系统性对比分析。表4和表5详细总结了这些对比结果。

1)基于一致性的聚类方法(BUC)旨在维持不同簇间的大小一致性,在positive标签数量分布不均的情况下可能面临挑战。本文提出的方法通过根据图像特异性动态分配positive标签(self-adaptive positive label assignment),能够有效缓解这一挑战。
2)对比实验表明,在将memory bank用于分类任务时展现明显优势的MMCL超越了基于交叉熵损失的传统方法。

