论文笔记---Cross Domain Knowledge Transfer for Person Re-identification
Abstract:本文提出了一种基于深度学习的行人再识别的方法,该方法通过传递中层属性特征和高层分类特征来实现。基于身份分类、属性识别和再识别,共享相同的中层语义表达思想,他们可以通过在一个的基础上对另一个进行微调来依次进行训练。在这个框架中,通过深度卷积神经网络来训练身份分类和属性识别任务来学习人的信息。在很大程度上信息可以转移到人的重识别任务中,并提高其准确性。并且提出了一种基于长短期记忆(LSTM)的递归神经网络组件。该组件在reid模型中用于注意每个循环单元的某些空间部分。通过实验表明,这个方法在CUHK03数据集上的识别精度达到了78.3%。
1、Introduction:
- 行人重识别的目标是在一组不重叠的摄像头下匹配行人,这为视频监控提供了很大的支持,并且也节省了很多人力的劳动,能够提高行人的追踪性能。但是在重新识别的时候还存在着一些困难,比如个人的姿态有着变化,外界环境的改变,以及不同人之间的差异性等等。
- 传统的reid方法主要侧重于颜色,形状等较低层次的特征来描述人的外观的特征,但是这些低层特征对于reid问题的描述并不可靠。
- 三个主要的贡献:
- 提出了一种跨领域的知识转移训练方案,该方案将模型按顺序在不同数据分布的数据集上进行训练。
- 提出一种基于spacial gate的LSTM网络用于行人再识别,这有助于模型在测试集上有更好的性能。
- 在其他的数据集上进行实验,发现这种方法具有很好的性能。
2、Related Work
现有的行人重识别有两种方法:feature representation learning 和 distance metric learning,下面讨论一些与这两种方法相关的:
- Deep learning based re-id:一方面,在深度学习技术的快速推动下,利用dCNN从原始图像中提取特征,并提出多种将dCNN特征嵌入到搜索空间的方法,称之为深度度量学习。siamese network structure将深度特征提取和识别融入到一个框架中,广受使用者的欢迎。另一方面triplet loss的提出,在排序问题上取得了巨大的成功。
- Knowledge transfer for person re-id:深度学习是靠数据驱动的,但是大量的数据训练需要耗费很多的人力物力。迁移学习能够很好的改变这一状况,迁移学习是通过将现有的知识应用到新的领域的任务中去。迁移学习在之前就被应用到了reid中,传统的方法倾向于直接使用属性作为图像的描述符。最近Su等人提出了从独立属性数据集]和行人跟踪数据集学习深度属性特征的三阶段过程,然后在person re-id数据集上测试其特征。
3、Method
对于三个不同的任务,网络训练在三个不同的数据集中进行训练。结构图如下:
分类任务使用带标签的Market1501 数据集,最终全连接层使用1501个输出结点。属性识别任务使用与分类任务使用的结构相似,使用sigmoid作为损失函数,并且最后的全连接层有105个结点。在reid框架中,将三幅图作为一个三元组,以上两个训练都为reid提供参数。特征提取器由dCNN和LSTM组成。在从特征提取器中得到三个归一化的特征之后,把triplet loss作为最终的损失函数。
3.1、ResNet for Feature Learning
* 本文使用ResNet结构作为dCNN的组件,对三个任务进行学习。由于训练的数据集较小,以前都是使用AlexNet进行训练,而本文使用ResNet-50进行训练分类和属性模型。ResNet-50共有五个阶段,为了能将最好的knowledge转移到reid的任务上,尝试不同的transfer方法,最终我们选择了只提取4个底部阶段(靠近输入),并且最终的实验也证明了这个结果。
3.2、Attribute Recognition for Features Enhancing
在这个模型中,属性的标签用一个k维向量表示:

其中:

向量的每个元素表示p是否具有属性k,最后一层使用sigmoid,计算结果为:

模型的预测属性k的概率为:

3.3、LSTM with the Spacial Gate
- 我们提取预训练的ResNet50的底部四个阶段,并且使用基于LSTM的RNN组件完成特征提取。
- LSTM的单元结构如下图:

LSTM单元是以CNN获得的大小为 h ×w的feature map的c个通道为条件。增加的spacial gate 能够决定那一部分特征图被使用,公式如下:
此公式中M是一个具有一组可训练参数的仿射变换,进行计算ht-1和yt的连接结果,其中yt为输入特征映射x乘以标准化掩码映射mt(后面有说此概念)的结果,公式为:(xi表示第i个通道,掩码映射mt 的大小为h × w,需要满足Pmt = 1.)

LSTM的初始状态记忆C0和隐藏状态h0是通过两个独立的多层感知机提供的每个通道的特征图平均值来预测的,公式为:

通过实验得到该技术对训练过程有一定的帮助,能够使训练更容易收敛。
关于掩码映射,这里提出了四种分别为:global mask, local mask, attention mask and fine-grained attention mask.下面作出具体说明:
Global mask

* 其中Jh,w为大小为h × w的全1矩阵,此时LSTM的yt的输入保持不变,这种类型的掩码相当于通道上的mean pooling。
Local mask

* 这种方式,每一time step都将原始feature map的一个局部部分输入到LSTM组件中,从而可以提取出更多有鉴别能力的局部连接。
* 与全局掩码相比,局部掩码可以更好的提取人的局部连接。掩码结构图如下:

Soft attention mask
* 为了计算这种掩码映射,在第二维和第三维之间不断的重复ht∈Rr(r为隐藏状态的大小),从而得到h(h,w) t∈R r×h×w。将前一个time step 的重复隐藏状态h(h,w) t−1与特征映射x∈R c×h×w相连接,公式如下:

其中N是一个可学习的仿射矩阵
* 这个学习的掩码映射说明LSTM可以通过学习决定应该注意输入特征的哪一部分,从而构建一个比较注意力的组件。
Fine-grained attention mask
与Soft attention mask相比,Fine-grained attention mask是在第三阶段得到特征图上的add attention,这两个的图像如下:

由于deep ResNet所提取的特征具有很高的抽象性和较小的尺寸,因此可以被很小的注意强度的改变,当feature map处于一个较低的阶段时,包含更多的空间信息,抽现象较低,因此可以用a finer grain intensity来添加注意。
3.4、Triplet Selection
由于我们的目标是生成尽可能有区别的特征,所以采用了三重损失函数作为训练损失函数。为了比较特征,我们选取三个人的图像作为训练组,其中 image1和image2具有相同的个人ID,而image3具有与它们不同的个人ID。三个图像别调整为相同的大小,分别发送给dCNN和LSTM模型。要将三个模型的权重设为相等,以保证特征提取的方式相同。对于L2-normalized features的三元组< H, H+, H− >,期望正样本比负样本更接近H,公式为:

其中a是设置的边界值,用来表示区分正样本和负样本的能力。我们要通过a去提高这种能力。
在此网络中三元组的损失函数为:

在测试阶段,我们将训练好的模型应用到一对图像上。计算这对查询之间的特征距离,并在所有查询对中对距离进行排序。
4、Experiments
我们主要通过四个对比实验来检验模型的有效性。
- 我们测试了从预先训练的dCNN的不同阶段转移的三个模型。
- 我们对分类模型和属性模型进行了实验微调。
- 我们在不同的spacial gate上做实验。
- 我们与其他先进的方法在CUHK03数据集上进行了比较。
-
4.1、Datasets
我们使用了数据集CUHK03作为个人id,数据集Market1501用于分类培训,PETA用于属性培训。-
CUHK03 :有14096张图片,1467个id,每个行人都从两个摄像头视角选取。采取20个随机分割,100个测试id,实验是在手工标记的数据集上进行的。
-
Market1501:超过25000张图片,6个摄像头,1501个id,每个人平均包含17张不同外观的图片,使用这个数据集来训练人的id分类模型
-
PETA:是一个小型数据集,在这个数据集中的每张图片,标记有61个二进制属性和4个多类属性,我们将4个多类属性扩展为44个二进制属性,这就能得到每个人长度为105的二进制属性向量。数据集在摄像机角度、视点、光照和分辨率上都有所不同。
-
4.2、Training Phase Settings
每个图像被调整为128×64,然后输入到网络中。我们进行数据扩充,以提供更多的训练数据,提高训练模型的鲁棒性。并且在运行时对原始训练图像随机进行水平翻转、移位、缩放和模糊的处理。初始学习率设置为10的-5次方,、。学习效率根据验证损失而增减。随机抽取10%的训练数据进行验证。将margin of triplet loss设置为a=0.3。batch size设置为128。 -
4.3、Analysis of the proposed model
- Analysis of different transfer methods:
-
在实验中首先对模型进行ImageNet分类,并且在Market-1501上进行身份分类的训练。然后使用不同的transfer方法,在不同的rank中分别测试,得到在数据集CUHK03上的识别率,如下表所示:

由实验结果得,在TStage4中的识别率都比较高,即在较浅的子网中传输reid可以得到较好的结果。
* Analysis of different domain knowledge:
此实验分析了来自不同数据源的模型的性能,实验得到下表:

由实验数据得,此实验证明了分类和属性信息对reid任务的有效性。
* Analysis of different spacial gates:
这个实验是为了分析spacial gates在LSTM组件中的有效性,在保持其他条件相同的情况下,分别对四种掩码映射进行了实验,得到下表所示的结果:

由实验结果得,根据我们提出的finegrained attention mask在更底层的特征映射中添加注意的模型,比原始的注意力模型有更好的性能。
- 4.4、Comparison with state-of-the-art methods
将我们的所提出的模型与其他先进的模型进行比较,我们提出的模型在性能上大大超过了最先进的reid方法。实验结果如下图:

5、Discussion
讨论一些有关优化的问题
采用更多的数据集可能会得到准确度的提升,实验如下表:

该模型能够学习人的鉴别特征表示,虽然一些特征人眼都很难识别,下面是一些reid的结果示例:

6、Conclusion
- 提出了一种基于information transfer的身份再识别的有效方法
- 在LSTM结构中提出了一种新的spacial gate,利用comparative attention 来提取密集的人的特征
- 这种方法适用于多目标的跟踪等实际应用
- 这种方法也在很大程度上提高了人的再识别性能
