Re-ID阅读笔记(二):《In Defense of the Triplet Loss for Person Re-Identification》
水平有限,疏漏之处在所难免,欢迎大家批评指正
论文作者:Alexander Hermans(亚琛工业大学)
论文链接:《Defended Against the Triplet Loss for Person Re-Identification》
一.前言
该论文提出Hard Triplet Loss作为一种困难三元组采样方法,在多个Re-ID基准数据集上均展现出显著的性能。另有研究者基于硬挖掘策略开发出多种Triplet Loss的变体方案,并已在部分研究者所设计的独特架构中成功引入了Hard Triplet Loss。总体而言, Hard Triplet Loss可被视为近两年内Re-ID领域广泛采用的一种重要方法。
二.方法
本节首先介绍triplet loss,再介绍hard triplet loss的方法
2.1 Triplet loss
Triplet损失函数论文:作为一本关于三元组损失函数研究的著作,《FaceNet: A Unified Embedding for Face Recognition and Clustering》详细探讨了其在识别和聚类中的应用。
triplet loss 最初应用于人脸识别,后来被推广到各个图像检索领域中。
以下图片可以很清晰地看出triplet loss的目的:

其核心概念是基于由锚点、正样本、负样本构成的三元素组,在经过特定训练后能实现使正样本至锚点的距离显著缩短以及使负样本至锚点的距离明显延长这一目标。具体而言,在该框架中以相同人物的不同图像作为正样本与锚点进行关联匹配,并以不同人物的图像作为负样本与之进行排斥匹配操作;通常采用欧氏距离这一指标来进行特征空间中的相似性度量评估。
Triplet loss公式为:

从公式中可以看出我们需要从输入的三元组样本中进行筛选。假设输入样本中的三元组是随机选择的,则会导致大量出现'易triplet'(易triplet),即作为锚点与正样本之间的距离较近而与负样本之间的距离则较远,并且这类triplet对应的损失值为零这样的训练将没有意义。然而,在后续阶段这类问题将愈发严重。
在原有研究领域中也探讨了三元组的选择机制,并未展现出硬核挖掘的能力。本节将深入探讨hard mining triplets的技术细节
2.2 Hard Triplet loss
主要是设计了一种困难采样的方式。
在每一个批次中进行处理时,在所有的人行者集合中进行随机抽样选取具有不同身份的人行者集合S(|S|=P);对于每一位被选中的行人在其对应的多张图象集合中进行进一步的操作或应用;最终将这些经过操作后的图象集合合并形成一个大小为|S| \times K 的人脸数据库批次
将该batch的第一张图像作为基准点,在此批次中选择一个最困难三元组:从剩余K-1张正样本中选择与基准点欧式距离最远的一张作为最不相似正样本;同时,在其余(P-1)×K张正样本中选择与基准点欧式距离最近的一张作为最相似负样本;这样就形成了一个包含基准点、最不相似正样本和最相似负样本的最优难三元组(hard triplet)。
随后,在该批次中从第二张到P\times K张图片均采用相同的方法进行采样操作,并最终获得了总计P\times K组最具挑战性的三元组。
用公式可以描述为:

