2018 CVPR:Pyramidal Person Re-IDentification via Multi-Loss Dynamic Training
Pyramidal Person Re-IDentification via Multi-Loss Dynamic Training
当前的问题及概述 :
大多数现有的方法高度依赖bounding box,然而,由于实际场景的限制,目前的检测模型往往产生不准确的bounding box,进而避免了算法的性能。
本文提出了一种新的由粗到细的金字塔模型,该模型不仅融合了局部信息和全局信息,而且还强化了局部信息和全局信息之间的线索,避免了bounding box的不准确性带来的影响。可以从下图看到,由于bounding box的遮挡问题,可以将图片进行不等分的划分,在下图从local到global的过程中,少量的局部视图(左)不能很好地匹配,而那些全局视图(右)有更多相似的线索。

模型及loss :
2.1Coarse-to-Fine Pyramidal Model :

首先使用backbone模型提取输入图像的特征图C\times H\times W。接着将该特征图沿着空间高度轴分割为n等分C\times (H/n)\times w。其中,在本文中n=6。神经元最底层l=1被划分为n个区域。最高层l=n对应特征图M。中间各层结构如图2所示。也可视为类似于PCB布局的结构:

在金字塔结构P中选取每一个分支节点P{l, k}之后

同时通过triplet loss区分差异较大的部分,缩短差异较小的部分:

具体见图3:

本文运用实时训练策略进行操作,并详细说明了具体的训练方式。
实验结果分析:
选取了Market-1501、DukeMTMC-reID以及CUHK03三个典型数据集。
对比分析不同网络性能表现:

消融实验:

总结 :
针对单模态ReID中的遮挡问题 challenge, 当前广泛采用 的 bounding box 方法已经不再适用, 本文提出了一种自底向上的金字塔结构方案用于解决这一挑战。具体而言, 该方法能够从局部到全局逐步提取图像的不同层次特征。在经过该金字塔结构处理后得到的一系列特征通道中, 将这些特征经过全局平均池化 (GAP) 与全局最大池化 (GMP)相结合后输入至全连接层 (BN), 经过 ReLU 激活函数处理得到不同粒度 (粗细) 的信息。随后, 利用 triplet loss 进一步区分正样本与负样本, 最终将这些信息传递至全连接层并通过 softmax loss 实现身份分类。
