【论文阅读】【Vehicle ReID】Vehicle Re-identification with Viewpoint-aware Metric Learning
论文阅读
论文阅读
论文阅读
- 研究背景及其驱动因素
-
方案概述部分详细阐述了方案的基本框架和核心内容
-
实验结果分析显示了各项指标的关键数据对比结果
-
深入分析与讨论部分深入探讨了各因素之间的相互作用关系
-
基于车辆方向预测准确率的算法性能影响分析为优化提供了重要依据
-
在分类树构建过程中采用了更为细致的分支划分策略以提高模型精度
-
参考文献
-
《Vehicle re-identification with viewpoint-aware metric learning》作为ICCV2019的一篇重要文章,在车辆重识别领域具有深远影响。该研究系统性地阐述了基于VANet(viewpoint-aware network)的网络架构设计,并从理论与实验双重角度深入探讨了其性能优势。在此基础上简要分析了该研究的核心观点和创新点。
研究背景和动机
针对车辆重识别任务而言,在多辆同品牌型号的车辆外观极为相近的情况下(尤其是当拍摄视角的变化幅度可达180度时),传统特征提取网络在这种情况下可能难以有效区分不同视角下的同一辆车与不同车辆间的差异)。这种情况下给重识别任务带来了显著的技术难题。例如图中(a)、(b)、(c)所示的情况就很好地展示了这一问题的本质

作者从车辆识别过程中获得启发:在判断两辆是否为同一辆车时,在面对同一视角的照片或画面时人们会更加注重对车辆细节特征的分析而在面对不同视角的画面时则更多依赖于联想记忆这一现象提示文章的核心思路可以用一句话来概括即:将具有相同视角信息的图像与不同视角图像分别独立处理
方案概述
该论文将车辆识别任务细分为多个子任务。首先利用一个基于CNN的模型预测车辆朝向(包括正面、背面及侧面等)。随后通过两个分支分别处理同一视角(S-view如两个正面)与不同视角(D-view如一个正面加一个背面)的情况。在每个分支中所采用的是三元损失函数这一常用的人脸识别算法中的方法,并将其定义为L_s与L_d。上式中其中P_s^+表示由相同视角的同一辆车(正样本)组成的样本对(如果用X代表样本集,则P=(x_i,x_j)),同理P_s^-表示相同视角下的负样本对,而P_d^+和P_d^-则分别代表不同视角下的正样本对和负样本对。\n\n对于距离计算而言有以下公式:\n\nD(P)=D(x_i,x_j)=||f(x_i)-f(x_j)||_2\n其中\alpha表示正负样本之间的最小间隔值(论文中设定\alpha=0.5)。
但在实际应用时,由于并不知道检索的图片和注册库中的图像是不是处于同一个视角,所以当两个分支分别计算得出一个和检索照最接近的样本时,只能通过特征距离大小来确定哪个是最终识别出的结果。因此必须要对两个分支的进行联合约束,使得相同视角下的负样本对之间的特征距离尽量大于不同视角下正样本对之间的特征距离 ,为此,作者引入了 cross-space 约束(作为对比,将上述L_s和L_d称为 within -space 约束)。具体形式如下:
L_{cross}=max\{D_d(P_d^+)-D_s(P_s^-)+\alpha,0\}将三个损失联合作为整个模型的损失函数:
L=L_s+L_d+L_{cross}两种约束的作用示意图如下,最终实现了Figure 1 中(d)的效果:

下图是算法的总体框图:

从结果来看,在车辆方向预测任务中,作者尝试了GoogLeNet和Xception两种网络架构。其中Xception网络虽然仅有GoogLeNet约10%的参数量,但其预测准确率却达到了99%左右的结果。在模型结构设计上,则采用了分步优化的方法:作者首先选择了GoogLeNet和ResNet50作为基底模型,并将其较浅的部分作为共享基础网络模块;而后将后续更深的部分复制并稍作修改分别构建为两个独立分支网络。与直接使用GoogLeNet相比,在性能表现上基于ResNet50的设计方案略显优势。
实验结果
在VehicleID和Veri-776两个公开数据集上,都取得了SOTA的结果。


在研究中,作者还对两种约束进行了比较实验(具体实施步骤在此不做详细说明),结果如下:


对比实验结果表明:
- 相较于 Baseline 方法(基于相同架构的设计且采用单一路径结构),VANet 在性能指标方面实现了明显的提升,在不同视角下的识别准确率表现尤为突出,并充分验证了双分支策略的有效性。
- 在两个关键约束条件下,cross-space 约束起着关键作用(移除该约束会导致性能低于 Baseline 方法),而 within-space 约束则有助于进一步提升识别精度。
分析讨论
车辆方向预测准确率对算法性能的影响

从图表中可以看出,在车辆方向分类任务中进行算法优化能显著提升整体性能。具体而言,在保持原有优化效果的基础上进一步减少分类误差将使识别效率得到明显提升。值得注意的是,在某些情况下即使将分类系统的误分率达到高达50%,系统整体性能依然优于未经优化的基准水平。(有一点不太明白?)
更加细化的分支
作者在VehicleID数据集上设置了'前'和'后'两个方向,在Veri-776数据集上增加了'侧面'这一额外的方向。然而,在网络架构设计方面仅设置了S-view和D-view两个核心组件:其中S-view负责处理仅单一方向的信息(如'A/A'),而D-view则专门处理跨方向关系(如'A/B')。为了探究不同网络架构规模对模型性能的影响,在基础架构中我们增加了3个子网络组件:包括单纯单一方向识别模块(A/A)、单纯跨方向识别模块(B/B),以及混合识别模块(A/B)。此外,在扩展架构中我们引入了4个子网络组件:单纯单一方向识别模块(A/A)、单纯跨方向识别模块(B/B)、混合识别模块1(A/B)以及混合识别模块2(B/A)。值得注意的是,在Veri-776数据集上还特意增加了侧向信息处理模块以提升模型鲁棒性。实验结果表明……

从结果来看,在分支数目增加的过程中(如6分叉的情况),算法的分类准确率出现了下降趋势。这可能是由于计算复杂度上升导致的资源浪费。对此进行了详细分析和说明:
- 由于数据集中的样本数量有限,在分支数量增加的情况下会导致每个分支所拥有的训练样本数量相应减少。这可能会导致模型出现过拟合现象。
- 随着分支数量的增加,算法会对车辆行驶方向预测的精度造成显著影响。
参考文献
由Ruihang Chu、Yifan Sun、Yadong Li、Zheng Liu和Chi Zhang等研究者提出的一种方法是基于视角意识度量学习的车辆重新识别技术
