ECCV 2016 A Deep Learning-Based Approach to Progressive Vehicle Re-identification
文章目录
- 摘要
- 引言部分
- 探讨了当前图像识别领域的相关研究现状及其应用前景
- 提出了一种新型的图像处理技术命名为PROVID方案
- 概述部分首先从整体框架设计入手
-
外观特征提取通过使用卷积神经网络技术实现了外观特征的有效提取
-
运用突触时序网络模型对车牌进行了精确识别过程描述
-
通过动态调整各子模块之间的处理顺序实现了时空信息的优化整合
-
4.实验
-
- 4.1 数据集
- 4.2 实验设置
- 4.3 车牌验证评估
- 4.4 车辆重识别评估
-
A method based on deep learning for progressive vehicle identifying in urban surveillance.
摘要
大部分现有的车辆重识别技术存在局限性,在专注于统一外观特征的同时忽略了部分独特的个体化标识(如车牌号码)。这是因为现有方法往往过于注重外在形态的一致性而导致无法准确捕捉到那些细微但重要的个体差异。
- 第一个搜索过程基于外观特征展开初步筛选工作,并通过Siamese神经网络(孪生神经网络)实施车牌校验以实现精准识别;
- 第二个搜索过程类似于人类在进行重识别车辆时所采用的方式,在技术架构上主要依靠从近到远布置的摄像头阵列以及时间线索。
构建了一个规模最大的数据集VeRi-776,并非仅有丰富多样的多特征车辆样本作为支撑,在重复度以及车牌号码和时空位置信息标注方面也具备显著优势。该研究方法相较于现有最优方案提升了约9.28%的准确率
关键词:车辆重识别 渐进式搜索 深度学习 车牌识别 时空关联
1.引言
车辆重识别任务描述:基于检测得到的车辆图像,在多角度摄像头捕捉到包含该车辆的图像库中进行匹配识别。

车辆重识别等同于实例级对象检索问题,在现实世界场景中进行车辆重识别时这一问题可通过渐近式搜索得以解决
如果监控人员希望在海量监控录像中筛选出可疑车辆,则会首先基于外观特征(如颜色、形状及类型)对大部分车辆进行剔除以缩小搜索范围。随后,在剩余的车辆中应用车牌信息进行精确识别(如图1(b)所示)。
同时进行,在实际应用中,在获取目标物体时会采用分阶段的方法:首先是近端摄像头(即利用图像库中的空间数据与待检索物体的空间数据进行匹配),随后扩展至远端摄像头(即扩展至整个环境的数据)。时间上也是按照相似时间段进行匹配,并且随后则扩展至更长时间段。时空信息如图2所示。

该方法在真实世界里面临的挑战:
基于外观特征的方法存在明显的局限性:不同角度拍摄的同一辆车可能会产生较大的类内差异,在相同角度拍摄的不同车型间则差异相对较小(图1(a)所示)。
车牌识别涵盖多个关键环节:包括图像检测、区域分割、形态学处理以及字符辨识等操作,在复杂交通场景中实现高效率的信息提取具有显著的技术挑战(非重识别任务仅需判断两张图片中的车牌是否一致)。
城市监控环境中的建模问题较为突出:在未加约束的理想条件下建立车辆行为模式的有效模型极为困难。此外还需考虑多维度因素对行车路线的影响:如交通状况、道路状况和天气状况等都会直接影响行驶路径的选择。而时空线索的综合应用也面临着诸多制约因素。
总之,相比已有的基于外观的方法,PROVID的特点有:
- 基于渐进搜索算法
- 深度卷积网络学习所得的外观属性特征被设计为粗筛选机制(通过多尺度特征提取进行初步筛选)
- 孪生神经网络模型被用来完成车辆识别任务(通过大量样本数据进行训练以判断是否为同一辆车)
- 时空关系辅助排序算法能够实现对结果的优化排序
2.相关工作
- 车辆重识别
- 车牌识别
- 时空关系
3.提出的方法(PROVID)
3.1 概述
该系统架构如图3所示。每次检索操作接收一张包含摄像头ID以及带有时间和地点信息的照片。该系统将检索任务建模为一种渐进式的搜索流程:
- 在待检索数据集中实施外观特征(如颜色、纹理等)的粗略筛选。
- 对于剩余数据集而言,在孪生网络中以实现车牌相似性计算为基础的方法筛选出多辆符合要求的车辆。
- 按照由近及远的原则,并借助时空信息对各车辆置信度进行重新排序。

3.2 外观特征提取(by CNN)
基于显著外观特征的特征(如颜色和形状)能够有效地筛选出与目标样本不相似的数据实例。此外,在处理大规模数据集时这一过程同样表现出较高的效率和可行性。因此,在本研究中我们采用了与参考文献[9]相同的纹理、颜色和语义融合模型作为初步筛选阶段的过滤器设计方案。
- 纹理特征:通常采用传统的表征方法来表示纹理特征。例如使用SIFT算法(尺度不变特征变换),随后将得到的描述子通过词袋模型进行编码处理。
- 颜色特征:CN模型用于提取颜色信息(参考文献23)。该研究中提到的模型基于词袋模型量化方法,在人体重识别方面表现出色。
- 高维特征:使用CNN网络进行学习训练(GoogLeNet)。经过微调优化后,在CompCars数据集上进行训练,并从中提取高维的车辆细节特征信息。具体来说包括车门数量、车灯形状、座位个数以及车辆型号等关键参数。
最后,上述三种特征通过距离信息融合在一起。how?
3.3 基于SNN的车牌识别
车牌可被视为车辆的独特标识符,在未加约束的监控场景中,在视角、低光照明及图像模糊(如图4左所示)的情况下,可能难以准确辨识出车牌号码。这些步骤包括但不限于车牌定位、形态校正以及字符分离与识别,并且这些步骤使得其难以高效应用于重识别任务。然而,在重识别任务中只需比较两个车牌是否为同一类型而不必进行详细匹配。SNN的核心概念在于学习一个将输入模式映射至潜在空间的函数,在此过程中相似性度量较大的被视为同一对象的两张图像;反之则代表不同对象的一张图像。因此,在类别数量庞大或训练样本不足的情况下,SNN方法表现出色,而这也正是我们讨论的重点所在。
用于车牌验证的SNN包含两个并行CNN(如图4右),每个CNN包含两个部分:
- (卷积层+最大池化层)x 2
- 全连接层 x 3
通过对比分析,该损失层将两个并行CNN的输出结果进行连接. 在训练开始前阶段:每对车牌图像被视为一个训练样本.
- 标注为1:if belong same vehicle
- 标注为0:otherwise
训练时:一对imgs各自被两个CNN进行前向传播。各层的输出被对比损失层结合在一起,并用于计算模型的LOSS值;随后进行反向传播过程;最后通过共享权重参数实现同步更新。

设权重矩阵为\mathbf{W}属于SNN模型,在给定输入图像集合\{x_i\}_{i=1}^n的情况下,在潜在度量空间中构建对应的嵌入表示\mathbf{S}_w(x_i)(其中i=1,2,\dots,n)。随后,在嵌入空间中计算各对样本间的能量距离:
d_{w}(x_i, x_j) = \mathcal{E}_w(\mathbf{S}_w(x_i), \mathbf{S}_w(x_j))

那么就可以这样表示对比损失:

(x_1, x_2, y)是一对带有标签的样本数据集中的一个实例;其中m表示正边缘值,默认设置为1个单位长度。在测试阶段,在第二个全连接层中获得的结果数值是1000;随后将采用欧氏距离来评估图像对之间的相似度得分。目前对于这一机制的具体实现过程仍存在疑问。
3.4 基于时空关系重排序
在无约束的交通场景中,在建模车辆行进轨迹或预测任意两车间的时空关系方面具有较大难度。因此,在重识别任务中引入时空关系信息是否具有有效性?
针对两个不同的数据集——包括2万组相同车辆图像对和2万组随机选择的车辆图像对——进行了系统的时空关系研究,并通过实验手段获得了相关统计结果(见图5)。研究发现,在相同车辆图像对中所提取出的时空标签信息之间的差异程度显著低于随机选择车组所呈现的结果。

假设前提条件是:当两个车辆图像之间的时空距离更为接近时
进一步分析表明:两个来自同一场景的车辆图像对比分析其时间相关性更为突出而其空间相关性变化相对较小

其中这些变量代表了图像的时间戳。而这一数值则代表了各查询图像与其测试轨迹间的最大时间间隔。相机之间的时间差计算则采用了两点之间的时间差最小值作为衡量标准。而整个系统中各相机间的最长连接距离则被定义为D_max。这些信息的具体获取方式主要依赖于Google Maps提供的时空分布数据,并且结果被组织成一个二维矩阵形式(如图6所示)。
在这一阶段,车牌特征与外观特征可综合运用融合策略、重排序策略以及时空关系的组合。深入分析其内在机理并结合实际应用场景进行系统性设计与优化实施。

4.实验
4.1 数据集
VeRi-776来源于VeRi。
VeRi:
- 由20个摄像机捕获了619辆车共产生4万张图像
- 这些图像均在真实无约束的道路环境下采集,并附有BBox标注信息、车辆类型标识以及色彩和品牌标识
- 每辆车辆的所有图像由2至18个不同角度和光照条件下的相机拍摄而成,并满足高重识别所需的数据还原率要求
扩充数据集:
- 数据规模扩大 。引入新增车辆具备同样的标注信息,并补充了具有相同时空特征的样本。最终数据集中包含约5, 余幅图像、条轨迹以及种类达七百七十六种的车辆类别。
- 车牌识别系统 。该系统将数据集划分为测试用例与训练样本两部分:其中包含辆用于测试模型性能的数据样例(包含幅图像),剩余的数据则用于训练模型。
从测试集中选取每条轨迹中的单一图像作为检索对象。
这样的设置将产生1678次查询请求。
针对每个待检图片与测试图片。
使用YOLOv3算法进行车辆探测。
就标注边界框信息。
结果表明,在这些样本中:
训练集中共有N_{train}=7647张图片样本;
在这些样本中包含N_{plate}=999张含有车牌的信息;
而测试集则包含了N_{test}=4825张具有车牌特征的图片样本;
其中约50%的查询项与图片样本能够通过车牌信息实现身份识别。
时空信息标注是针对所有车辆轨迹(trails)进行的时间-空间标记过程。每个轨迹(track)由同一时间同一摄像头捕获的道路车辆行进路径组成,在同一轨迹中的道路会被归于同一类别以便后续聚类分析。对于每一个轨迹(track),首先会对采集该轨迹的所有摄像头(编号1-20)进行标识;其次采用首次捕获该轨迹的时间戳作为该轨迹的时间标记;为了促进基于时空关系的重排序操作(reordering),我们还通过Google Maps平台计算并记录了从20个摄像机中任意两个摄像机间的最短路径距离(如图6所示)。
4.2 实验设置
评估:基于多摄像头匹配算法,在从单一摄像头获取一辆车辆的图像后(即一张图片),系统能够识别该车辆在其他摄像头中的运动轨迹(即tracks)。
文献9中指出,在车辆重识别方面与行人重识别类似地采用了基于图像到图像的方法。然而本研究则采用了基于图像到轨迹的方法,并且其中轨迹搜索的结果即为tracking的结果
image到track的一致性测度:与该图相关的track内所有图的一致性测度的最大值。因此,在image-to-track搜索过程中共有1,678个查询图片和2,021个测试trails。
基于VeRi-776的数据集上,每张查询图像都有多个 ground truth instances。我们使用mAP指标来评估整体性能表现。对于每张查询图像,在计算其AP值时。

设n表示test track的数量,则mAP=\frac{1}{n}\sum_{k=1}^{n}\frac{P(k)\cdot N_{gt}(k)}{N_{gt}}}其中mAP(Mean Average Precision)是一种评估排序算法性能的标准指标;在计算机视觉领域中常用于度量目标检测系统的检测精度;该公式表明,在测试过程中选取前k(从1到n\$)的结果并求其平均精度即可得到最终的mAP$值;

在本研究中所涉及的Q代表查询数量;对于mAP这一指标, 可以参考目标检测模型的评估指标mAP详解
建议参考该技术的多标签图像分类任务的评估方法-mAP用于理解其核心机制。
4.3 车牌验证评估
(1) FACT + Plate-SIFT
(2) FACT + Plate-SNN
FACT又是什么鬼? 后续了解是这个系列的前一篇文章。。。
总体而言,SNN相比SIFT更具优势且更为适用;然而,在面对多视角和多种光照条件下时,SIFT的鲁棒性表现不够稳健。

4.4 车辆重识别评估
其他模型在VeRi-776的结果:



基于外观特征的各种模型包括BOW-CN、LOMO、GoogLeNet和FACT均展现出较好的性能;然而在车辆重识别任务中效果却不尽如人意。事实上,在仅关注语义属性方面GoogleNet略显不足;而FACT不仅考虑了语义属性(high-level),还引入了颜色和纹理特征(low-level)进行分析;其中高阶与低阶特征在粗筛选过程中均表现出良好的效果,并且计算效率较高。
。。。。。。后面的没必要分析了,建议看原论文,写的脉络清晰易懂。
后续如果能有开源代码的话再详细瞅瞅实现细节。
