论文阅读(七)Learning Visibility-aware Part-level Features for Partial Person Re-identification

1.要解决什么问题:识别数据集中,或者现实生活中拍摄的,目标行人残缺的情况,匹配会发生对不齐现象
2.用了什么解决方法:提出VPM网络,以自监督训练为主要方法,使得网络自发的更关注共存的区域,对于不可见区域在计算距离时产生作用小,可见区域起的作用大。同时自监督训练使用交叉熵损失训练网络进行区域分类,使用三元损失寻来你网络进行身份分类。最终消除局部区域错位匹配现象。
3.效果如何。达到目前最优水准 mAP 90.8,R1 93.0
4.还存在什么问题
5.可借鉴之处:区域定位生成的概率图的方法可以借鉴
Abstract
这篇文章考虑了行人再识别的局部区域Reid的问题,在partial re-ID情况下,图像也许只包含行人的部分外观。如果直接将部分行人图像与整体图像比较,那么空间错位会损害所学到的识别能力。于是,提出了一个Visibility-aware Part Model (VPM),该模型可以通过监督学习来感知区域可见性,也就是说可以发现哪些人的图像是不完整的。VPM模型关注的是局部特征,当比较两个图片时,VPM会只关注他们都共同存在的区域,就不去比较被遮挡的部分了。VPM对Reid任务有两方面好处,(1)VPM学习局部细粒度特征。(2)VPM关注两张比较图片都存在的区域,抑制比较错位。

1. Introduction
Reid在实际应用中面临的一个主要问题是,行人可能部分被遮挡,或者一部分走出了视野,摄像机捕捉不到完整行人。使用不完整局部行人图像进行检索面临着两个问题:
(1)空间错位错位问题,如图1a所示。
(2)当比较两个完整度不同的行人image时,相对完整对应的多出部分变相的称为了噪声。当图像中人体比例不相同时也会出现这种情况。如图1b
所提出的VPM可以缓解上述两个问题,首先在行人图像上定义一些区域,如图1c所示,然后在训练时候,给定部分行人图像,VPM学着在卷积特征图上去定位所有预先定义的区域,在定位每个区域后,VPM感知哪些区域可见并学习区域特征。在测试过程中,假设两幅图像要进行比较,vpm首先计算它们共享区域之间的局部距离,然后得出总距离。
VPM效果好主要由于两方面因素,一方面学习了区域细粒度特征,VPM捕捉两张图片共同存在的区域消除了错位带来的噪声。
此外,VPM可以自我监督的来学习区域可见性感知(region visibility awareness),方法是从整体数据集中随机抽取部分行人图像,然后生成人体区域标签,由此产生自我监督。自我监督使VPM能够学习定位预先定义的区域。它也有助于VPM在特征学习过程中关注可见区域。

2. Related Works
作者发现,例如PCB这种基于分块的Reid方法,当遇到不完整行人时效果会有明显下降。这是由于若使用分块方法,必须保证两张图分块区域相互对应,这样导致对于错位更加敏感。不同于PCB与SPReID,在测试阶段,VPM首先计算彼此之间的区域距离,然后基于高可见置信度动态的将区域距离作为总体距离。
自我监督是这项工作中的主要工具,作者使用自我监督学习可见区域感知,不同于其他方法,VPM首先定义了一个在整体图像上的分割,然后给分割区域进行标注,(应该是网络识别过程中可以自动识别出该身体区域属于哪个标签,即哪部分)然后VPM就可以直接预测行人图像中的身体区域属于哪部分。
3. Proposed Method
3.1. Structure of VPM
VPM采用全卷积设计,VPM输入行人图像,输出区域特征和一系列区域可见性得分。
首先将完整的原图统一分割,然后将对应的图像的局部图resize到固定大小输入到VPM中,经过完整的Resnet50,得到三维特征图T(CHW)。T上的一个像素点视为C维特征向量g,接着跟着一个区域定位器和一个区域特征提取器,定位器用于发现T中不同的区域,提取器用于提取这些不同区域的特征。
区域定位器,使用1x1的全卷积结合softmax,将T中的特征向量g分类。通过分类获得3个概率图,图表示每一个g属于3个不同区域的概率。根据概率图,预测出可见区域得分(visibility score C),计算方法为分别求g在3个概率图上的概率和,如过一个区域可见,那么对应的得分就会高,若不可见,得分接近于0。

特征提取器,通过加权为各个区域生成对应的特征,同时除以Ci作为维持区域尺寸的范数不变性。

3.2. Employing VPM
假设给定两个输入
和
,VPM使用上述公式抽取区域特征和区域可见得分{
,
},{
,
},使用欧式距离计算对应区域的距离,

计算全局距离通过如下公式:

可见区域的visibility score的分高,从而两张图片共享的区域得分高,由此最终的距离由共享区域把控。相反缺失的区域对距离计算的贡献就减少。
3.3. Training VPM
向量T使用端到端训练提取特征,该特征用于后来的区域定位与区域特征提取,同时训练还采用自我监督的方法。
将完整图片裁剪出的残缺图片上预先定义好的区域通过ROI映射,映射到特征向量T上,若分为三个区域(如图中所示)则标签就为1,2,3,这样就可以知道T中的g是属于哪个区域的。
自监督主要分三个方面:
1、自监督使用的对应区域所属的真实标签
2、使用交叉熵损失分类,使得VPM关注可见区域
3、使用三元损失,使VPM关注共享区域

还可以参考:http://www.sohu.com/a/320544964_500659
