ICCV 2019 PAMTRI: Pose-Aware Multi-Task Learning for Vehicle Re-Identification
文章目录
-
Abstract
本节主要概述了本文的研究背景、目标及主要贡献。 -
Introduction
引言部分介绍了本研究的背景、意义及其与现有工作的关系。 -
Related Work
相关工作综述中涵盖了多个关键领域的发展情况。
Subsections
Subsection 2.1: Vehicle ReID
其中最为关键的任务之一是基于车辆识别的任务分析。
Subsection 2.2: Vehicle pose estimation
车辆姿态估计技术作为重要的研究方向得到了广泛的关注。
Subsection 2.3: Synthetic data
合成数据生成方法在提升模型性能方面发挥了重要作用。- 3.提出的方法
-
- 3.1 随机合成数据集
- 3.2 车辆姿态估计
- 3.3 车辆重识别的多任务学习
-
评估部分
-
- 数据源及评估标准规范
-
- 实现内容
-
- 其他方法对比分析
-
- 属性分类分析部分
-
- 车辆姿态估计分析
-
5.结论
-
PAMTRI: pose-aware multi-task learning techniques are employed to enhance the vehicle re-identification process through the utilization of highly randomized synthetic datasets. This innovative approach is detailed in a research paper available at Research | Research
摘要
车辆重识别面临的挑战:
- 类内的差异较大:归因于形状和外观对于观察者视角的强烈依赖。
- 类间的差异较小:归因于各类别中的不同车辆在形状和外观上的高度一致。
为了解决这些难题,我们开发出了Pose-Aware Multi-Task Re-Identification (PAMTRI)框架。相较于现有的多种方案,该框架的主要贡献体现在两个方面:
- 在分析目标场景时, 以"关键特征点"、"热图"以及"人体姿态分割"为基础, 以明确推断车辆的姿态与形状为目标, 进而消除对视角限制的影响.
- 在ReID过程中, 采用基于嵌入式的人体姿态表示技术, 并结合多任务学习方法, 同时结合车辆语义属性(如颜色与类别)进行识别分类.
由于人工对图像进行细致的姿态与属性信息标注存在高昂成本,我们构建了一个基于大量随机生成数据样本的大规模合成数据集,并在这些训练样本中融入了自动标注属性信息。通过大量实验测试了各个组件的有效性后发现PAMTRI系统在 VeRi 和 CityFlow-ReID 两个知名车辆重识别基准测试集上均展现了优异性能
1.引言
交通摄像头的广泛应用为视频分析在物流、交通以及智能城市等领域的发展带来了显著机遇。这类分析中的核心难点在于不同类型的物体相互关联问题,在此领域中具有重要研究价值的是目标重识别问题(如图1所示)。

尽管行人和车辆都是智能城市应用的重要目标,在过去几年中对行人重识别的关注程度更高。主要原因在于我们能够获得大量高质量标注的数据集,并且计算机视觉研究在处理人脸和身体特征方面积累了深厚的经验。然而,在实际应用中发现相比行人对象而言,车辆的重识别问题更为困难:在同类物体内部存在高度变化(high intra-class variability)和不同类别之间的变化较小(small inter-class variability)。
最近的车辆重识别方法基于特征学习[37,45,46]以及距离度量学习[3,10,13]来训练深度神经网络(DNNs),以区分车辆样本对。然而,在性能上现有最先进的方法仍与行人重识别存在明显差距[43]。此外,在文献[30]中已明确指出,在这一领域间存在显著的技术差异:直接借鉴行人重识别技术至车辆目标检测难以弥补这一差距,并非因为技术能力不足而是由于任务本质上的根本区别。我们坚信,在实现车辆重识别时应重点关注那些不因视角变化而改变其本质特性的信息(如颜色、类别以及可变形状模型编码的姿态)。为了整合这些属性信息及姿态特征进行系统性研究,本研究采用合成数据增强的方法来缓解真实标注数据获取的巨大成本。
在本研究中,我们致力于构建一个命名为PAMTRI的位置感知框架。该框架专为多任务重识别任务设计,并专注于位置感知技术。我们的主要贡献包括三个方面:首先,我们提出了一种基于深度学习的方法;其次,在特征提取算法上进行了优化;最后,在计算效率方面实现了创新性突破。
- PAMTRI通过整合关键点检测、热点图识别及姿态分割技术,在车辆重识别任务中的多任务学习框架中构建了完整的特征提取体系,并通过这一创新设计实现了对视角相关信息的关注与聚焦。
- PAMTRI基于大量合成数据进行了系统性训练,在模拟场景中生成了多样化的车辆模型实例以及丰富的外观特征标注信息。
- 我们提出的方法在VeRi[14]基准测试集上实现了显著提升效果,在CityFlow-ReID[30]评估基准上同样展现了优异性能表现。通过引入显式的姿态信息特征及其独特组织架构设计,并结合随机化生成的数据样本进行统一训练优化,在该方法实现突破的关键性技术支撑下取得了令人瞩目的实验效果。
2.相关工作
2.1 Vehicle ReID
早期涉及深度学习的多种尝试里:
- 刘等人的研究团队提出了一个渐进式的框架,在该框架中他们采用了具有对比损失的SNN网络进行训练,并成功构建了VeRi[14]作为首个大规模车辆重识别基准数据集。
- 白人等[3]以及库马尔等[10]在借鉴距离度量学习的优势基础上,在行人重识别[6]任务的成功应用基础上拓展到了基于车辆的任务中。其中 noteworthy的是库马尔等提出的批量采样变体方法目前已成为VeRi与CityFlow-ReID[30]数据集上最先进的方法。
- 一些方法特别关注于提取不依赖于视角变化的特征信息。例如王等人[37]提出的方法通过将提取到的关键点嵌入与局部区域特征结合的方式并采用交叉熵损失进行训练。
- 周等人[45,46]通过生成式对抗网络(GAN)模型生成多角度特征表示,并由一个视图感知注意力模型选择这些特征;其中属性分类则通过鉴别网络实现。
- 詹等人采用多任务学习策略同时优化车辆排序与属性识别性能;然而其目标聚焦于寻找视觉相似性较高的样本;这与其我们提出的重识别目标存在差异。
目前的研究尚未发现任何有效的方案以联合姿态信息和多任务学习来解决车辆重识别问题。
2.2 Vehicle pose estimation
采用变异性(如基于关键点)建模作为用于建立车辆姿态估计模型的核心策略,在智能交通系统中展现出显著的应用潜力。
- 参考文献[31]中指出,在Tang等人的研究基础上提出了一种基于进化算法生成具有16个关键点的车辆模型,并将其作为构建多个用于三维跟踪内核的核心技术。
- 如Ansari等人在文献[2]中所述,他们开发了一个更为复杂的车辆模型,包含了36个关键点,并利用行车记录仪进行三维定位和形状估计。
- Wang等人在文献[37]中提出了一种基于20个关键点的车辆重识别方法,并通过提取方位特征来进行区域建议。然而,该方法并未显式地对关键点坐标进行定位;相反地,则仅依赖于响应映射来进行估计,并且框架未能充分考虑语义属性。
- 此外,在文献[11、16、18、39]中提到的方法可直接回归出具有6个自由度(DoF)的汽车姿态;然而这些方法未能采用基于关键点的车辆形状建模作为基础模块,在这种情况下就无法满足我们的目标。
2.3 Synthetic data
为了在训练图像上生成详细且具象的标签,我们的研究采用了混合图像的训练策略。该策略不仅结合了渲染图像与真实图像的特点,在模拟数据环境下对DNNs进行训练的研究已形成一定的研究背景(这一背景通常涉及现实差距问题)。而克服所谓的现实差距的一种广泛采用的有效手段是随机域数据生成技术[34,35]。在这种技术下,模型被设计成拥有极高的视觉多样性(即能够呈现多种不同的视角),从而使得在生成真实世界图像时变得更为高效。
合成数据已被成功地应用到多种领域中。具体而言,它包括光流检测(参考文献:17)、汽车目标检测(参考文献:22)等技术。此外,在文献:26和36中讨论了物体姿态估计问题;在文献:8和34中则探讨了基于视觉技术实现的机器人操作研究;在文献:4和29中研究了机器人的控制技术。在此基础上,我们进一步开展车辆再识别技术和语义属性分析的研究。
此处暂时还理解不透,不了解。。。。
3.提出的方法
在当前章节中, 本节将详细阐述所提出的PAMTRI框架及其算法设计部分. 系统整体流程图如图2所示.

3.1 随机合成数据集
除了通过车辆ID进行识别外,在实现这一目标的过程中还需要额外的车辆属性和关键点位置的标记项。在人工标注时,尤其是那些关键位置上的标记项将导致巨大的时间和资源投入。
为了解决这一问题,我们采用了深度学习数据集合成器(NDDS)[33]来生成一个大规模的合成数据集合,并将其应用于虚拟引擎4(UE4)中的一个随机化环境。在这个环境中,我们将三维车辆网格从[22]导入,并在CAD模型上增加了NDDS的标注功能以及导出特定3D位置的能力。具体而言,在每个车辆模型上手动标注了Ansari等人[2]所定义的36个关键点位置,并利用合成图像输出对应的二维位置信息。该方法采用了10种车身颜色共计42个汽车作为随机化样本,并通过给定颜色组合为每个车辆模型赋予唯一标识符以促进重识别训练过程。最终生成的数据集包含41,000张独特图像样本(共计402个ID),并包含了关键点坐标、方位信息以及车辆属性信息(如颜色和类型)。这些图像样本均来自CityFlow[30]背景库,并对车辆位置和光照强度进行了随机化设置以增强多样性
在训练过程中, 我们实施了一系列随机后的预处理措施, 包括但不限于缩放操作、图像裁剪、水平翻转以及部分区域遮挡. 其中部分示例可参考图3.

3.2 车辆姿态估计
基于视角感知信息展开多任务学习的过程中
与之前采用堆叠沙漏状网络[21]作为backbone的方法[2,37]不同的是
我们设计了两种新方案用于将车辆的姿态数据融入到多任务网络中的输入层。这些方法分别基于热图和分割掩码进行操作:
- 在反卷积层之后提取特征图;
- 使用全连接层预测关键点坐标。
例如,在可变模型中(如图3所示),关键点#16、#17、#35和#34构成了汽车引擎盖的部分(分割区域)。因此,在每辆车定义了13个分割掩码(如图3所示),其中由低置信度的关键点组成的区域被设置为空白区域。随后从姿态估计网络中获得的热图或分割反馈被缩放后添加到原始RGB通道中进行后续处理,并结合显式的关键点坐标及其置信度值反馈至多任务网络进行进一步处理。
3.3 车辆重识别的多任务学习
位置感知的表示对重识别和属性分类任务都有重要作用:
- 车辆的姿态表征于摄像机视角下的三维形状模型的不变性 ,从而使得重识别子网络能够学习不同视角下的特征关联。
- 车辆形状与其所属车辆类型之间存在高度相关性。
- 基于2D关键点进行分割分析后 ,颜色分类子网络得以聚焦于主要车辆色彩特征,并成功忽略非着色区域如挡风玻璃和车轮。
因此,在多任务学习框架中嵌入预测的关键点位置及其热图(或分割结果),从而引导注意力集中在与视角相关的表示上。首先,在基于DenseNet121[7]设计的卷积神经网络(CNN)架构中优化了backbone模块的第一层结构。当使用预训练权重处理RGB通道时,在新增通道中采用高斯随机初始化以保持权重参数的一致性。通过融合所有姿态估计所得热图/分割结果与原始输入图像中的RGB通道信息形成的新图像能够为深度学习模型提供额外关于车辆形状的信息。实验过程中将合成图像与真实图像混合在同一batch中进行处理,并通过改进后的backbone模块传递特征信息到后续层中
从最终池化层提取出深度学习特征向量的过程来看,在姿态估计结果的基础上融合了关键点坐标及其置信度得分(经归一化处理至-0.5至0.5范围),如图3所示。这些关键点以显式形式表示且具有有序性,使得神经网络在全连接层中能够更好地捕捉到更为可靠的空间形状描述来进行多任务学习。随后将上述处理后的特征向量输入至三个独立的任务分支中进行多任务学习:其中一个是车辆重识别模块,另外两个分别是颜色分类和类型识别模块。
网络的最终损失函数是三个任务的联合损失:
对于车辆重识别任务而言,在融合硬挖掘三元损失与交叉熵损失的基础上进行方法设计,并结合距离度量学习与身份分类技术展开具体实现
其中\mathcal{L}_{\mathrm{htri}}(a, p, n)是hard triplet loss,a,p和n分别代表anchor,positive和negative 样本:
三元组损失 Triplet Loss及其梯度 的理解
\mathcal{L}_{\mathrm{htri}}(a, p, n)=\left[\alpha+\max \left(D_{a p}\right)-\min \left(D_{a n}\right)\right]_{+} \tag{2}
请关注式(2),其中欧氏距离受\max/\min操作的约束。参考链接中的内容可了解Triplet、Triplet Loss及Hard Triplet的相关知识。α代表边缘距离;特征空间中锚点与所有正样本及负样本之间的距离度量分别由D_{ap}与D_{an}表示;交叉熵损失由\mathcal{L}_{\mathrm{xent}}(y, \hat{y})=-\frac{1}{N} \sum_{i=1}^{N} y_{i} \log \left(\hat{y}_{i}\right) \tag{3}定义。
在公式(3)中
其余两个分支分别用于颜色分类和类型分类,并统一采用了交叉熵损失函数作为评估标准:
\mathcal{L}_{\text {color }}=\mathcal{L}_{\text {xent }}(y_{\text {color }}, \hat{y}_{\text {color }}) \quad (4)
以及
\mathcal{L}_{\text {type }}=\mathcal{L}_{\text {xent }}(y_{\text {type }}, \hat{y}_{\text {type }}) \quad (5)
最终的目标函数是多个任务的加权总和:
其中,
\mathcal{X}=\left\{\left(x_{i}, y_{i}\right)\right\}代表输入训练集,
\theta代表网络的参数集合。
参照相关领域的研究[12,23],
我们在实验中将正则化参数\lambda_{\mathrm{color}}和\lambda_{\mathrm{type}}分别设定为远低于1,
具体数值设在0.125。
这是因为,
在某些特定情况下,
车辆重识别与属性分类常存在矛盾,
例如,
两辆具有相同颜色及/或型号的车辆不应共享同一车辆ID。
在测试阶段,在该ReID分类器中被去除了最终的分类层。对于每张车辆图像,在其最后一层全连接层中提取出具有1024维特特向量空间特征表示。为了评估查询与测试样本之间的相似性程度,在每一对样本之间计算并比较其欧氏距离值
4.评估
4.1 数据集和评估协议
在两个主流基准数据集上进行评估:VeRi [14]和CityFlow-ReID [30]:

这项工作的另一个重要贡献在于,在CityFlow-ReID系统中设置了666个特定的ID,并对这些ID的人工标注车辆属性信息(包括颜色特征和类型分类)进行了详细设置。
4.2 实现细节
多任务学习训练
基于文献[44]所提出的现有方案, 本研究采用了DenseNet121 [7]作为多任务学习中的主干网络, 其初始权重来源于ImageNet[5]上的预训练模型. 输入图像按256×256像素的比例进行缩放, 并设置批量大小为32. 本研究采用Adam优化器对主干网络进行训练, 训练周期设定为最多60个epoch. 起始学习率为3e-4, 并在第20及第40个epoch分别降至3e-5及3e-6. 对于多任务学习场景, 用于ReID任务的全连接层输出维度设定为1024, 而属性分类任务中包含两个全连接层, 且两者的输出维度均为512维. 所有最终全连接层均采用了Leaky ReLU[40]作为激活函数.
姿态估计训练
在该领域处于领先地位的人体姿态估计相关研究中,我们采用HRNet[25]作为车辆姿态估计的核心组件。这一方法基于Sun等人的最初实现进行构建,并且为了提高训练效率,在模型初始化阶段采用了ImageNet[5]上预先训练好的权重参数作为初始值。所有输入图像均被 resize 到 256×256 大小,并对热点图及分割输出尺寸统一设为 64×64。实验中将批量大小设定为 32,并将最大迭代次数设定为 210 次;学习率设定为 1e-3 并保持恒定不变。最终全连接层被配置成输出一个 108 维向量以适应车辆模型所需的关键点数量以及它们可见性的表示需求(通过置信度分数计算得出)。
4.3 与其他方法的比较
VeRi见表2,分析就。。。

CityFlow-ReID [30]见表3。

在图4中,绘制了表3中方法的CMC曲线,以便更好地观察定量实验对比。

在图5中呈现了我们采用该方法取得的成功的案例和失败的案例。这些案例中,大多数失败的情况源于 taxi 类别与其他常见车辆类别之间高度相似性以及场景中物体(如标志牌、旗杆)强烈的遮挡。

4.4 属性分类比较
颜色和类型分类的实验结果如表4所示:

4.5 车辆姿态估计比较

5.结论
略。。。。
。
。
。
个人在阅读这篇文章时深感困惑与挑战。诸多细节之处令人难以把握其精髓。希望经过一段时间的消化与沉淀后,会对文章内容有更深刻的体会。
