Advertisement

【论文阅读】行人重识别(Person Re-identifition)——Batch Feature Erasing for Person Re-identification and Beyond

阅读量:

《Batch Feature Erasing for Person Re-identification and Beyond》

原文

论文链接: https://arxiv.org/abs/1811.07130

项目的代码仓库链接为https://github.com/daizuozhuo/batch-feature-erasing-network,方便您直接访问源码进行研究和学习

1. 解决的问题

现有的行人重识别技术主要包括如PCB、MGN等方法。为了获取更加精细且具有区分性的特征信息, 大部分采用对提取到的Feature map进行水平分割后再分别计算损失。然而仅凭水平分割可能使整个Feature图像的信息被部分丢失。因此研究者们通常会对这一问题进行优化。随后,在PCB的基础上增加了RPP模块来重新划分未被精细分割的特征, 从而需要采用双阶段的学习策略以提高模型性能。相比之下,MGN采用了更为复杂的架构, 在其网络结构中包含了多次不同的切割方式, 依次进行了三次切割处理, 并将各次切割所得的不同特征层进行融合汇总以丰富最终输出结果的信息量

如何实现特征图的分割核心在于避免网络过于关注那些显而易见的全局特征?

图1:(a)同一batch的输入图片。

(b)由ResNet-50这一层次的基础网络输出结果生成;基于特征向量经L2范数正则化处理后的亮度强度可视化结果呈现。

2. 创新点

  1. 开发出了一种创新性地设计的新机制——批特征擦除(BFE);
  2. 基于BFE构建了一个全新的深度学习模型,在其架构中主干网络以ResNet50为基础,并包含两个子网络:一个是全卷积结构,另一个是具备特异去除能力的特性消除模块;
  3. 在对特征擦除子网络进行优化过程中,在每个batch样本上系统性地从其所有通道中随机抹去相同位置区域。随后将主干与子网络提取的多模态表征进行融合组合以实现行人重识别任务。

3. 网络架构

研究者统一地将Global Branch与Feature Erasing Branch两个分支整合为ResNet-50的整体结构

  1. 使用ResNet-50作为backbone来提取特征,并对网络结构做了轻微的改动,在Stage 4中没有采用下采样的操作,从而得到大小为2048248的特征图;
  2. Global Branch 。在backbone网络顶部添加了一个Global Branch的分支。确切地说,在残差网络Stage 4后使用了全局平均池化 来得到一个2048维特征向量,通过一个1*1的卷积层、bn层和一个ReLU层维度减少为512,输入Batch Hard Triplet Loss Softmax Loss;Global Branch有两个目的:1. 为了提供全局特征表达;2. 用于监督特征擦除分支的训练。
  3. Feature Erasing Branch。 特征擦除分支使用BFE层处理特征图T并提供批量擦除特征图T'。然后用全局最大池化 得到2048维的特征向量,最终在triplet loss和softmax loss中减到1024维,网络中没有用到Dropout。具体来说就是设置一个擦除区域(mask)将ResNet-50得出的特征T在该区域的特征值全部置为0,擦除区域其实就是随机设置一个原特征图一定长宽比例的区域,并且这个长宽要保证足够大能够覆盖一定的语义信息(代码中设置为0.5)。每个batch中该mask的区域位置都是不一样的。
  4. 训练时采用将上下分支特征进行ID和triplet loss的计算,测试时则直接连接上分支的5121和下分支的10241特征,并计算特征之间的距离。

源自Global BranchFeature Erasing Branch 的特征进行串联作为一张行人图片的标定向量。需特别注意以下几点:

  1. BFE层不影响网络规模;
  2. 除了行人的ReID之外,BFE层还能够应用于其他度量学习任务;
  3. 通过微调,BFE超参数无需调整网络结构就能适应不同任务。

Loss function

损失函数L是基于两个分支计算得到的soft margin batch hard triplet loss与softmax loss之和。其中 soft margin batch hard triplet loss 的定义如下

P定义为不同的人数;K定义为每个用户的图片数量;在一个batch中被计算为P×K个的三元组集合。

l_{BH}(\cdot) 代表 batch-hard triplet loss;对于每个锚点图像 X_{ai} ,在 ID 为 i 的图像集合中选取与其具有最大欧氏距离的那个图像作为正样本 X_{pi} ,而在其他不同 ID 的图像集合中选取与其具有最小欧氏距离的那个图像作为负样本 X_{nj} 。这样就形成了一个包含这三个元素 X_{ai}X_{pi}X_{nj} 的三元组;而 l_{SBH}(\cdot) 则是该批次内所有这些三元组 soft margin batch-hard triplet loss 的总和;其中 D(\cdot, \cdot) 表示欧氏距离函数;而 f_\theta 则是 BFE 网络学习得到的目标空间特征映射函数

4. 实验结果

实验对比分析中发现,在BFE(256)+BFE(512)模型中,其中Global branch的特征维度设定为256维、Feature erasing branch的特征维度设定为512维

参考地址:https://zhuanlan.zhihu.com/p/53241545

全部评论 (0)

还没有任何评论哟~