论文阅读之 Improving person re-identification by attribute and identity learning
目录
1. 摘要
2. 主要贡献
3. 提出的模型(APR)
3.1 ARM
3.2 损失函数
3.3 属性加速过程
4. 实验
4.1 数据集和评估规则
数据集
评估指标
4.2 Re-ID 任务评估
与先进的方法对比
与baseline对比
4.3 消融研究
属性消融研究
ARM 的有效性
算法分析
学到特征的鲁棒性
加速检索过程
4.3 属性识别任务评估
1. 摘要
提出问题 : 行人重识别和属性识别任务都需要学习行人描述 ,不同之处在描述粒度 不同。把二者结合一下,会有更好的效果吗?
解决思路 : 融合属性标签和ID标签
具体实现 :提出了attribute-person recognition (APR)网络, re-ID 的同时预测属性。给两个大规模的 re-ID 数据集手动标注了属性标签,用于检验解决方法的有效性。
解决效果 :将APR 应用于行人重识别,检索过程加快了 10 倍,而 Market-1501 的准确度仅下降了 2.92%。将 APR 应用于属性识别任务,结果表明相较基线模型提升很多。
2. 主要贡献
作者总结了文章的主要贡献:
- 为 Market-1501 数据集和 DukeMTMC-reID 数据集手动标记了一组行人属性。
- 提出了一种新的属性行人重识别 (APR) 框架。它学习了用于行人重识别和属性识别的判别性属性。
- 引入了属性重加权模块(ARM),它根据学习到的属性之间的依赖和相关性来校正属性的预测。
- 提出了一种属性加速过程,通过从查询图像中过滤出具有不同属性的图库图像来加快检索过程。
- 在两个大规模数据集即 Market-1501 [17] 和 DukeMTMC_reID [20] 上,与最先进的 re-ID 方法相比,提出的算法获得了具有竞争力的准确性。同时还展示了算法对于属性识别任务的基本模型性能的提高。
3. 提出的模型(APR)
APR(Attribute-Person Recognition network)的总体结构如下图所示。APR 针对identity classification 任务和attribute recognition 任务分别设计了预测。
属性预测: 一张行人图片输入网络, 卷积神经网络 特征提取器(CNN Extractor) φ 获取其特征表示(Feature),接着基于行人图片特征给出属性预测 。通过 ground truth label 和 属性预测可以计算得到属性损失 (attribute losses)。
身份预测: 由于局部描述符(属性)有益于全局描述符(identity),因此可将属性预测视为身份预测 的线索。ID loss (身份损失 )的计算则不仅与 global image feature 有关,还和 local descriptors (attributes) 有关,是二者组合的结果。
图 1
那么如何结合属性和图片全局特征得到身份预测 呢?
当然不是简单的加和,如图1所示,作者设计了 Attribute re-weighting module(ARM)对属性重新分配权重,之后再与全局特征相结合得到身份预测。
3.1 ARM
设计 ARM 的动机是为了重新校准各属性的激活(activation)强度。这样总体考虑了所有属性,而不仅是考虑单个属性。
举个例子来说明 ARM 的作用:使用 ARM,模型可以学习利用属性之间的相关性。 例如,当“粉红色上衣”和“长发”的预测分数非常高时,网络可能倾向于增加属性“女性”的预测分数。
ARM 具体实现方式如下:
通过 sigmoid 激活函数和可训练的参数
形成属性预测时的门控机制,给每个属性不同的激活强度,也可以理解为权重。
假设图片
的属性预测向量为 \tilde{\alpha },
和
是可训练的参数向量,
是通过网络学习得到的属性预测向量 的置信度。

则 ARM 模块通过将置信度
和预测向量 逐点相乘得到新的预测分数 

当然,通过重新分配权重得到的预测分数
还需要连接全局图片特征,得到新的特征,送给 ID 分类器。
3.2 损失函数
属性预测的损失函数:

身份预测的损失函数:

总体的损失函数:

3.3 属性加速过程
对于 Re-ID 系统来说计算检索距离是一个很大的开销。通过属性预测结果过滤掉 gallery 中与 query 属性不同的数据,将加速检索计算过程。
属性过滤的具体过程如下:
首先设定一个阈值
,如果某个属性的置信度
, 则认为该属性是可靠的。检查 query 和 galley 是否对该属性具有相同的预测。 如果不是,则从 galley 中删除该候选图像。
在实际应用中,阈值的选择需要权衡效率和准确性。因此存在两种选择策略:激进的策略是设置较小的阈值(接近0),这样会移除大部分候选图片,适用于速度优先的情况。保守的策略是设置较大的阈值(接近1),仅移除少量图片。
在 Market-1501 的实证研究中,通过将阈值设置为 0.7,将检索过程加快了十倍以上,准确度下降了 2.92%。
4. 实验
4.1 数据集和评估规则
数据集
文章对两个大规模 Re-ID 数据集 Market-1501 和 DukeMTMC-reID 以及一个属性识别数据集 PETA 进行了实验。
Market-1501 数据集:包含用于训练的 751 个ID 的 19,732 张图像和用于测试的 750 个身份的 13,328 张图像。对于每张图像,注释了 27 个属性。
DukeMTMC-reID 数据集: 702 个身份的 16,522 个训练图像和 702 个身份的 19,889 个测试图像,每个图像都用 23 个标签进行了注释。
PETA 数据集:是一个大型人物属性识别数据集,为 19,0 0 0 个图像标注了 61 个二元属性和 4 个多类属性。在本文中,为了评估我们在 PETA 上的方法,我们为 re-ID 任务重新拆分数据集。我们使用 4981 个身份的 17,100 张图像进行实验。在我们的新分割中,4558 个身份的 9500 张图像用于训练,423 张图像用于查询,7177 张图像用于图库。
表1 实验数据集 | 数据集名称| 训练ID数量| 训练图片数量| 测试ID数量| 测试图片数量| 标注属性数量 |
| --- | --- | --- | --- | --- | --- |
|---|---|---|---|---|---|
| DukeMTMC-reID | 702 | 16,522 | 702 | 19,889 | 23 |
| PETA | 4558 | 9500 |
评估指标
对于Re-ID 任务,使用累积匹配特征 (CMC) 曲线和平均精度 (mAP) 进行评估。对于属性识别 任务,我们测试每个属性的分类准确率。galley 图像用作测试集。在 Market-1501 上测试属性预测时,我们省略了干扰(背景)和垃圾图像,因为它们没有属性标签。我们将所有这些属性预测的平均准确度报告为整体属性预测准确度。
4.2 Re-ID 任务评估
与先进的方法对比
在 Market-1501 上,APR 使用 ResNet-50时, rank-1 = 87.04%,mAP = 66.89%。在所有对比方法中,达到了最佳的 rank-1 精度和 mAP。如图2所示。
图 2
在 DukeMTMC-reID上, APR 使用 ResNet-50时, rank-1 = 73.92% , mAP = 55.56% 。如图3所示。
图 3
与baseline对比
对比结果如图 2、3、4 所示。其中,Baseline 1 是 ID-discriminative Embedding (IDE),Baseline 2 是 Attribute Recognition Network (ARN)。
图 4
通过提出方法 APR 和 baseline 的对比,可以得出以下结论:通过整合基线 1 和基线 2 的优势,提出的方法大大超过了两个基线。
例如,当使用 ResNet-50 时,在 Market-1501 上 APR 的 rank-1 比基线 1 和基线 2 分别高 6.88% 和 37.28%。在 DukeMTMC-reID 上,APR 的 rank-1 比 Baseline 1 和 Baseline 2 提高了 9.7% 和 27.78%。在 PETA 上 APR 的 rank-1分别比基线 1 和基线 2 提高了 4.15% 和 14.65%。这证明了身份和属性学习两个基线的互补性。
4.3 消融研究
属性消融研究
本消融研究的目的是评估各个属性对 re-ID 性能的贡献。 每次从 APR 中删除一个属性,评估结果如图 5所示。由图可知 Market-1501 和 DukeMTMC-reID 上的大多数属性都是不可或缺的。包的类型和鞋子的颜色这两个属性产生的影响很大,删除它们导致两个数据集上的 rank-1 分别下降了 2.14% 和 1.49%。 这表明两个数据集的行人具有不同的外观。 “戴不戴帽子”的属性似乎对整体re-ID准确率产生了负面影响,但影响非常小。
图 5
ARM 的有效性
在三个 re-ID 数据集上测试了有和没有 ARM 的 APR,结果如图 2、3、4 所示。 所示。加入 ARM ,对于以 ResNet-50 作为主干的 Market-1501,rank-1 和 mAP 分别提升为 1.33% 和 0.30%。 对于 DukeMTMC-reID,分别提升了 0.36% 和 0.74%。 对于 PETA,我们观察到 rank-1 和 mAP 分别提高了 1.14% 和 2.03%。
算法分析
在 Market-1501 的验证集上验证 APR 的参数
。
是平衡身份损失和属性识别损失贡献的关键参数。 当
变大时,身份分类将发挥更重要的作用。 图 6 给出了在Market-1501 验证集上不同
值的 Re-ID 准确性。 当
从 0 变为 0.9 时,rank-1 准确率和 mAP 分别从 67.33% 和 60.32% 逐渐增加到 94.52% 和 88.03%。 表明身份标签在 re-ID 任务中的重要性。 当
增加到1时,模型的rank-1准确率和mAP分别下降到90.25%和85.44%,表明属性的有效性。 当
= 0.9 时获得最佳 re-ID 性能, 因此实验设置
为 0.9。
图 6
学到特征的鲁棒性
为了验证所提出的方法在实际条件下是否仍然有效,我们报告了 Market-1501+500k 数据集的结果。 500k 干扰物数据集由背景图像和大量不相关的行人组成。提出的 APR 模型在这个数据集上使用 ResNet-50 的 re-ID 精度如图 7 所示。结果表明提出的方法 APR 优于 2stream 和 Baseline 1。然而,所提出方法的 rank-1 精度下降速度比 Baseline1 快。我们认为基线 1 可能能够检索简单查询的基本事实,但 APR 可以检索简单查询和困难查询的基本事实。当增加 gallery 中的图像数量时,简单查询图像仍然可以由基线和 APR 处理。但是,困难样本可能更难检索。因此,APR 的性能下降得更快。
图 7
加速检索过程
如图8所示,阈值
越小,经过过滤后剩余的 gallery 图片数目就越少。将阈值设置为 0.7,检索过程加快了十倍以上,准确度仅下降了 2.92%。
图 8
4.3 属性识别任务评估
在 Market-1501、DukeMTMC-reID、PETA 和 CUB_200_2011 上进行了实验,实验结果如图9、10所示。
图 9
图 10
实验结论如下:
首先,在所有数据集上,所提出的 APR 网络在一定程度上提高了整体属性识别精度。 Market-1501、DukeMTMC-reID、PETA 和 CUB_200_2011 的提高分别为 0.26%、0.08%、0.2% 和 1.58%。 所以总的来说,身份分类的整合引入了一定程度的互补信息,有助于学习更具判别力的属性模型。 另外,APR 在最先进的 PETA 上实现了最佳的属性识别结果。
其次,观察到 APR 的某些属性的识别率降低,例如 Market-1501 中的 hair 和 B.pack。 然而,图 5 表明这些属性对于提高 re-ID 性能是必要的。 原因可能在于 APR 的多任务性质。 由于模型针对 re-ID 进行了优化(图 6),某些属性的模糊图像可能会被错误地预测。
