论文笔记之---Joint Detection and Identification Feature Learning for Person Search
Abstract:
现有行人的再识别方法主要关注的是经过裁剪后的行人的照片。然而,在现实场景中获取的照片往往存在明显的差异性。为了弥补这一差距并提升性能表现,在本文中我们提出了一种新型的人流搜索框架。该框架通过将行人检测与行人都识相结合的方式,并利用单一的卷积神经网络进行训练以达到目标效果。文中采用了OIM损失函数(Online Instance Matching)来训练网络结构,在实际应用中该算法相较于传统 Softmax 损失函数在收敛速度上表现出更强的优势
一. Introduction
该研究方向在行人再识别领域的应用场景及其存在的挑战被介绍。例如,在实际应用中会遇到人物的姿态、摄像头的角度、光照条件、图像分辨率以及背景复杂度等各项因素的影响。
虽然人们提出了多种行人再识别的数据集与方法,
然而,在现实应用场景中存在明显的差距。
其根本原因在于现有多数方法依赖于人工裁剪处理后的图像,
而实际应用中需要首先从特定的场景中识别出行人。
目前大部分研究论文假设行人在采集时已经被完美定位。
如下图:

-
不同于传统方法将行人检测与再识别分别处理的思路,本研究通过一个卷积神经网络(CNN)整合这两个任务,以解决相关问题。该网络被划分为两部分:首先,person detector模块负责生成候选区域框;其次,feature extractor模块提取特征并进行检索目标匹配。值得注意的是,两组模块在联合优化过程中实现了相互促进和支持的效果,从而克服了单一模块可能带来的局限性。
-
基于传统的人脸识别(re-id)特征学习方法主要依赖于pair-wise和triplet之间的距离损失函数
该方法在计算开销上存在较大规模的需求,并且 Softmax 损失函数在类别数量增加时会导致运行时间显著延长甚至无法收敛。因此我们提出了 Online Instance Matching 损失函数(OM-Loss)。该方法通过构建一个 lookup table 来整合所有带标签身份的特征信息,并与 mini-batch 样本之间的距离进行比较;同时那些未被标注的身份可被视为 negative samples,并将其特征存储在一个循环队列(circular queue)中进行对比。
二. Related Work
介绍re-id和行人检测方法的发展历程.....
各种论文和方法的罗列
三. Method
文中方法的流程如下:

简单介绍一下:
通过stem CNN实现了原始图片像素到feature maps的转换,并由此构建pedestrian proposal net;该网络进而预测候选行人的bounding boxes。
上述的一组 bounding boxes 将被输入到具备 RoI-Pooling 的 identification network 中以抽取经过 L2 正则化的每个 bounding box 特征(共 256 维)。
c)在推断阶段通过比较gallery person与目标行人的特征距离来进行排序
在模型的训练过程中,基于特征向量x_i∈X_f^m×n的输入数据x_i,在每一步迭代中都计算其对应的特征向量f(x_i)。然后采用OIM损失函数以及其他的损失函数来优化识别网络的行为,并通过多任务学习的方式进行网络优化。
Model Structure
该文中采用了ResNet-50作为卷积神经网络(CNN)的基础架构,并将其中的关键路径层conv1和conv4_3定义为基础茎模块。对于任意输入图像而言,在经过基础茎模块处理后会生成1024个通道的空间分辨率仅为原始图像十六分之一的特征图。
基于featsmaps,该算法通过512×3×3尺寸的卷积层对行人的特征进行转换,随后,在每一个feature map的位置上应用了9个基于Faster RCNN原理生成,并通过Softmax分类器判断是否存在行人.此外,在确定候选框时会用到线性回归技术用于微调锚框的位置.经过非极大值抑制后筛选出最佳候选框,并将其定为最终结果.
为了从这些 proposals 中识别出目标行人, 我们通过建立一个 identification 网络来提取特征, 并将其与目标行人进行比较. 然后使用 RoI Pooling 层从 stem 的 feature map 中提取出大小为 1024×14×14 的区域(每个 proposal 对应一个区域), 随后将这些区域输入到 ResNet-50 的 conv4_4 到 conv5_3 层之间, 并通过 global average pooling 层将其压缩为 2048 维的特征向量.
4.一方面来说,在行人检测领域中的 pedestrian proposals 无法完全避免出现误报(即 proposal 中并非全部是行人)以及位置偏移的问题。为此我们采用 Softmax 分类器结合线性回归的方法来剔除非行人区域并修正 proposal 的位置。另一方面,在经过 L2 正则化的 256 维子空间中进行特征提取,并通过计算与目标行人的余弦相似度来判断该区域是否属于行人区域。
Online Instance Matching Loss
1.首先要区分几个概念:
labeled identity:与目标行人相吻合的proposal。
unlabeled identities:包含行人但不是目标行人的proposal。
background clutter:包含非行人物体或者背景的proposal。
在OIM损失函数中只考虑前两者。具体见下图:

2.文中未采用SGD进行优化,而是采用了在线近似方法。在一个 mini-batch 中,每个 labeled identity 的特征表示被标记为 x(其中 x 是 D 维特征向量)。为此,我们建立了一个 LUT 来存储所有 labeled identities 的特征信息(该 LUT 为 D×L 维矩阵,其中 L 表示不同目标行人的数量)。在前向计算过程中,我们计算当前 mini-batch 中每个样本与其对应的 labeled identities 之间的余弦相似度(通过将 V 转置后乘以 x 实现)。在反向传播阶段,假设目标行人的分类标签为 t,则可以根据以下公式更新 LUT 中对应的目标行人的权重信息:

除了已经标记的身份之外,在每次迭代完成后,我们采用循环队列来存储那些未被标注的身份特征。具体来说,这是一个D×Q维矩阵(其中Q表示队列的最大容量),用于存储这些特征。此外,我们还可以计算该矩阵U与其mini-batch样本之间的余弦相似度。在每次迭代完成后,在这些未被标注的身份中加入新的特征向量,并移除掉较早失效的元素以保持队列的有效性。
4.特征向量x被视为第i类的行人的概率为:

在该模型中,T调节了概率分布的平滑程度。类似地,在循环队列中,x被视作第i类无标记身份的概率为:

OIM最终目标是使得期望似然函数最大化:

L对x的梯度可以表示为:

5.文中没有使用Softmax函数的原因有两点:
在大规模行人搜索数据集中,由于每个类别的样本数量有限,在每个mini-batch中正样本的数量相对较少。为了提高识别性能需训练的判别函数数量较多。这将导致分类矩阵各元素梯度的变化幅度显著增大。
其次,在Softmax中存在未标记的身份信息这一问题;这些信息不具备明确的分类标识。
- OIM与Softmax的主要区别体现在其损失函数的非参数特性上;其中将LUT(Look-Up-Table)和circular queue视为外部记忆单元的同时也被认为是非网络参数的一部分;然而,在实践应用中发现OIM模型容易出现过拟合现象;因此,在本文的研究中将特征向量经过L2范数正则化处理并映射至低维子空间进行研究
随着行人类别数量的增加, 计算过程可能会耗费较多的时间, 因此我们采用了通过双采样策略来处理labeled和unlabeled identities的方法.
四. Dataset
本文采用了两种数据集作为研究基础。其中一类是通过在城市环境中拍摄的照片获取的数据样本;另一类则源自于电影画面中的行人截图。这种分类处理有助于拓展研究场景的多样性。此外,在不同像素级别上进行了labeled与unlabeled身份信息的统计分析,并具体统计结果如下所示:

数据集被划分为训练集与验证集,在验证集中的人行进一步划分为查询样本(queries)与 gallery样本(galleries)。该集合总计约2900条identity信息,并从中随机选择一个作为查询样本。其中gallery样本则包括所有包含其他相同身份图像以及不包含该查询样本的所有图像。
3.评价机制:采用了 CMC 的 top-K 和 mAP 评估指标。CMC 用于验证匹配的存在,在 top-K 个预测边界框中至少存在一个与 ground truths 匹配的框,并且其交并比(IoU)需达到或超过 0.5。而 mAP 则遵循了ILSVRC的目标检测标准。
五. 实验
采用三类行人检测算法与五组行人再识别方案进行相互配对(形成30种配对组合)。其中包含CCF、ACF以及Faster RCNN等主要技术手段。其召回率-精确率曲线表现如何:

CMC top-K和mAP的结果如下:

对于行人重识别部分,则采用了DSIFT、BoW以及LOMO三种算法,并将其与Euclidean距离度量、余弦相似度评估方法以及KISSME特征匹配策略和XQDA分类器相结合。
3.OIM与Softmax的对比:

4.使用二次采样后的mAP曲线如下图:

5.将特征映射到低维子空间对结果的影响:

6.detection recall rates对mAP的影响:

7.Gallery size对mAP的影响:

六. Conclusion
本文开发了一种解决行人搜索问题的新框架,并将其与目标检测与目标识别技术相结合。通过一个卷积神经网络(CNN)实现对该问题的整体求解,并且该架构显著降低了计算复杂度。在网络的训练过程中采用了OIM(Mask-EOC)损失函数作为优化目标,在模型训练完成后能够实现对更大规模数据集的有效处理,并且显著提升了模型在大规模数据集上的性能。
