Advertisement

Bag of Tricks and A Strong Baseline for Deep Person Re-identification

阅读量:

摘要

本文旨在探讨一种简单的有效行人的重识别(ReID)基准模型。近年来基于深度学习的方法在行人的重识别领域取得了显著的进步,在这一领域展现出了卓越的效果。然而现有的许多state-of-the-art的方法都依赖于复杂的网络架构及其分支特征融合这一技术手段。文献中虽然提到了一些高效的训练策略但并未进行详细阐述。本研究将系统地收集并评估这些行人重识别领域的高效训练技巧并将它们有机地结合在一起仅利用全局特征即可在Market1501数据集上实现85.9%的人均米AP指标这一令人鼓舞的结果证明了该方法的有效性 Source code and model files均可在GitHub平台获取

背景

近年来,在深度学习的基础上发展起来的ReID领域取得了显著的进步,并展现出卓越的表现。然而,在当前最先进的方法中所采用的技术主要依赖于复杂的网络架构和多分支特征融合机制来实现目标检测效果。在文献研究中发现了一些高效的训练技巧零星地出现在一些论文或源码中。本文计划系统性地收集并评估这些ReID相关的训练技巧,并探讨其应用效果。通过综合运用这些训练技巧优化ResNet50模型,在Market1501基准测试集上的实验结果显示,在top-1精度方面达到了94.5%,而在top-5精度方面则达到了85.9%的结果表现值得肯定;值得注意的是我们采用全局特征实现了如此出色的表现

我们对去年ECCV 2018及CVPR 2018发表的相关论文进行了系统综述。如图所示,在Market 1501数据集下,在包含23种不同基准模型的情况下(其中仅两种方案实现了超过90%的识别精度),其余多数方案的表现均未达到这一水平(其中4个基准模型的Top-1准确率低于80%,而在DukeMTMC-reID测试集上所有基准模型的表现均未突破80%(mAP值最高仅为65.4%)。由此可见,的强大基础模型对于推动研究发展具有重要意义。通过引入针对性训练策略优化传统基础模型,在实验结果中取得了显著提升(Top-1准确率达到94.7%,Rank-1性能达到73.6%,平均AP值升至76.4%)。此外, 我们的强基础模型源码已正式开源

此外我们还发现,在对state-of-arts方法进行对比分析时存在一定的局限性。具体而言改进的方法更多地依赖于训练过程中的技巧性操作而非核心算法本身然而这些训练技巧在文章中往往被提及较为简略导致读者容易忽视这些关键信息这可能使人们对该方法的作用机制理解出现偏差为此我们建议审稿人在评估相关学术论文时也应充分重视这些辅助技术的影响

先前提及的原因之外,在工业界对简洁有效的模型有着更高的偏好,并不采用在前端处理阶段将众多局部特征直接拼接的方法。为了追求更高的精度水平,在学术研究中人们往往会综合运用多种局部特征或是借助语义信息来进行姿态估计以及分割建模工作。值得注意的是,在实际应用中大量特征不仅显著地降低了检索效率,在性能提升方面也呈现明显的局限性。基于此我们倾向于探索一些技术手段以增强ReID(Ring-Induced Descent)模型的表现能力,并仅依赖全局特性即可获得理想的效果。本文的研究目标归纳如下:

  1. 我们进行了多篇顶级会议论文的综述分析,并发现它们大多建立在较弱的基础模型之上。
  2. 为了研究人员能够达到更高的行人ReID准确率,在学术界我们致力于提供一个强大的基准模型作为起点。
  3. 在社区层面,我们希望分享一系列实用的技术方案以帮助审稿人评估哪些技术能提升其性能。此外,在比较不同方法效果时,请审稿人也考虑纳入这些关键因素。
  4. 在工业界方面,我们希望通过分享一系列实用的技术方案来实现提升性能的同时保证计算资源的效率。

图1:在Market1501和DukeMTMC-reID两个数据集上展示了不同基准线的表现情况。我们将其与CVPR 2018年和ECCV 2018年的基准线进行了对比分析。

值得庆幸的是,在一些论文或开源项目中可见许多有效的训练技巧。

  1. 我们积累了一些在行人ReID领域具有实用价值的训练方法。在此基础上我们构建了一个新型瓶颈结构命名为BNNeck。此外我们在两个广泛应用的数据集上系统考察了每种方法的性能提升情况。
  2. 我们开发了一个强大的ReID基准模型在Market1501数据集上分别获得了94.5%和85.9%的准确率值得注意的是这一结果是基于ResNet50结构通过全局特征提取实现的据信这也是全局特征在行人ReID领域所能达到的最佳水平。
  3. 作为补充我们还系统考察了输入样本尺寸与batchsize大小对于ReID模型性能表现的影响。

标准Baseline

我们采用常见开源库构建我们的基准基准线。该基准模型以ResNet50为基础架构,在训练过程中经过精心设计的步骤序列进行优化和调整。

0,1

训练技巧

本章将阐述一些行之有效的行人ReID训练方法。这些常见的训练策略通常能在不更改模型架构的情况下有效提升基准性能。图2则直观地展示了本章采用的训练策略及其所对应的模型架构。

图2 标准baseline与我们优化的baseline。

3.1 Warmup Learning Rate

2

改写内容

3.2 随机擦除数据扩展(Random Erasing Augmentation)

27

,如果

,那么我们将

区域设置为选择的矩形区域。我们会持续迭代以上过程,直到选到理想的

。选择出的擦除区域

中每个像素分别设置为图像I的均值。

在本研究中,我们设置超参分别为

。图4展示了其中一些例子。

3.3 标签平滑(Label Smoothing)

25

25

25

25

是第i类的预测概率。交叉熵损失函数计算如下:

由于分类的类别由人的ID决定,我们将这样的loss在本文中称为ID loss。

然而,在行人重识别领域中将其视为一个单一的学习步骤具有可行性。这是因为测试数据中的ID标识不会包含于训练数据中这一前提条件得以满足。因此,在训练过程中防止ReID模型出现对训练数据中ID标识过度拟合的问题就显得尤为重要。Label smoothing(LS)方法在文献【17

表示如下:

这里

是一个小常量,来降低模型在训练集上的置信度。本研究中,

设置为0.1。当训练集非常大的时候,LS可以很大程度的改善模型的表现。

3.4 Last Stride

16

16

高分辨率能够显著提升特征细节的程度。文献【16

3.5 BNNeck

大部分ReID模型的训练过程都涉及将ID损失与三元损失相结合。具体而言,在图5(a)所示的标准基准模型中,ID损失与三元损失共同约束了特征f。然而就嵌入空间而言(即Embedding Space),这两个损失之间并不连续。

如图6(a)所示,在embedding space中通过构建几个超平面将各个类别划分为不同的子空间以实现分类效果的提升

为了解决前面指出的问题,我们开发了一个如图5(b)所示的网络命名为BNNeck。该结构仅在特征层之后或FC分类层之后添加一个Batch Normalization(BN)层。其中,在该BN layer之前定义的特征表示被明确表示为

。我们使得

通过BN层来得到正则化后的特征。在训练阶段,

用来计算triplet loss与ID loss。正则化平衡了各个维度的

该特征遵循超平面高斯分布模式。这种分布结构有助于提升ID loss收敛速度。此外,在BNNeck设计中实现了对特定区域表现的有效优化。

此一问题可能导致系统性能下降。具体而言,在ID loss方面存在一定的限制条件,在这种情况下triplet loss不仅能够实现更好的收敛效果,并且在实际应用中表现出更高的鲁棒性。此外,在引入有效的正则化技术后,在同一用户的多模态特征将被进一步优化和融合以提升整体性能

4

4

考虑到在原始坐标系下超平面几乎呈现对称分布的情况下

在前向阶段,我们选择

本研究旨在实现行人重识别任务。通过对比实验表明,在度量方面Cosine距离优于欧氏距离。研究结果通过表格1中的数据验证了BNNeck在较大程度上提高了重识别模型的表现效果。

3.6 Center Loss

Triplet loss计算如下:

这里

分别表示正样本对与负样本对的特征距离。α是triplet loss的权重,

等价于max(z,0),本文中α设置为0.3。然而triplet loss只考虑

的区别,不考虑他们的绝对值。举个例子,当

时,triplet loss为0.1。另外一个例子,当

在某个期间时, triplet loss也是0.1. triplet loss是由从两个新的人工设计目标中随机选取样本得到的. 这使得在整个训练数据集上实现稳定的效果成为一个挑战

20

20

这里

表示mini-batch中第j张样本的标签。

表示深度特征第

一类的中心。B代表batchsize的数量。公式直观呈现了类内的变化情况。通过优化center loss能够进一步增强类内数据之间的紧密度。我们模型总共包括如下三个loss:

β是center loss的平衡权重。在我们的实验中β设置成了0.0005。

全部评论 (0)

还没有任何评论哟~