Re-ID: Person Re-identification by Local Maximal Occurrence Representation and Metric Learning 论文解析
注释:看完这篇论文后,在整理阅读笔记的过程中发现了一些有趣的观点,并对其中提到的研究方法给予高度评价。
项目主页:http://www.cbsr.ia.ac.cn/users/scliao/projects/lomo_xqda/
论文解析
-
行人重识别有两个特别重要的问题:
-
特征表示方法
-
距离学习
-
该论文中,在研究者所采用的方法中包含了LOMo特征表示方案以及XQDA的距离学习方案。
- LOMO:Local Maximal Occurrence Representation, 工作原理如下:
-
-
LOMO特征分析局部特征在水平方向上的分布情况,并通过最大化出现次数形成稳定的表示形式以应对视角变化的影响。
-
此外,在处理光照变化时,我们采用了Retinex变换以及尺度不变性纹理算子。
-
首先,在图像预处理阶段应用Retinex算法可以有效减少光照变化对重识别的影响。
-
该算法通过模拟人类对亮度和色彩感知的特点来生成与场景观测一致的颜色图像。

通过查看效果图可以发现,在a模块的不同视角下照明变化会导致b模块中的影响基本消失。这一程度上降低了光照对重识别过程的影响。
随后从生成的Retinex图像中提取HSV色彩直方图作为颜色特征。除了描述颜色外, 作者还采用了Scale Invariant Local Ternary Pattern(SILTP)方法以获得光照不变的地貌描述。以上主要解决了光照变化的问题, 接下来将解决视角变化的问题。
-
在先前的研究中提出了一种方法:将人体图像均匀分割为六个水平带,并对每个带进行直方图计算。
- 尽管该方法在一定程度上能够减弱视角变化的影响;但它可能导致空间细节丢失,并因而降低鉴别能力。
- 因此,《作者》提议使用滑动窗口来实现描述的过程。
-
Specifically, we adopt a subwindow dimension of 10×10 pixels to identify local image patches within 128×48 pixel regions using an overlapping interval of 5 pixels.
-
For handling viewpoint variations, we examine all subwindows sharing the same horizontal coordinate and determine the maximum occurrence of each pattern across these subwindows.
-
The resultant histogram demonstrates partial invariance to viewpoint alterations while effectively capturing distinctive features from individual body regions.

为了进一步考虑多尺度信息的影响,在构建三尺度的金字塔表示法时(如图所示),我们采用了2x2的局部平均池化操作对原始128×48分辨率的图像进行了下采样处理(如图所示),并按照之前的特征提取流程重复这一过程(如图所示)。这样就能得到一个包含颜色通道信息和形状描述信息两部分的数据结构(如图所示):即(8×8×8的颜色通道直方图 + 3⁴×2个SILTP形状描述子)乘以(水平分组数目为24 + 11 + 5),最终得到了一个维度为7960的空间特征向量(如图所示)。
最后一步中,在计算最终特征向量之前(如图所示),我们对直方图数据进行对数变换以抑制过大的值,并对HSV和SILTP两种特征分别进行归一化处理。
-
Through cross-view quadratic discriminant analysis, we learn a discriminant low-dimensional subspace and simultaneously develop a QDA metric within this subspace. Additionally, we propose a practical computation method for XQDA along with its regularization.
-
XQDA originates from KISSME Revisit and Bayesian Face in the context of cross-view metric learning.
- 首先使用高斯模型分别拟合类内与类间样本特征的差值分布

* 然后根据两个高斯分布的对数似然比推导出马氏距离
- 对数似然比:

- 马氏距离:

* 接着定义子空间W,将(4)投影到该子空间W,得到距离

为了生成一个能够有效区分目标子空间W,并且使得类内数据点的离散程度低而类间数据点之间的差异较大,在此基础之上导出以下优化目标函数表达式。

* 其原型是:$J(w) = \sigma_E(w)/\sigma_I(w)$
- 将这个优化函数进行最大化,得

- 最后得到解

在实际运算过程中, 协方差矩阵Cov(X,Y)的求解过程具有较高的计算复杂度; 因此, 在面对这一挑战时, 作者采用了简化公式的方法.


* 最后,再提一点,作者发现,取大于1有利于决定子空间维度。
-
介绍完该论文的特征表示以及距离度量学习的方法后,作者开始介绍他们的方法在四个数据集下的实验结果,以及与the state of the art(最先进技术)的比较,从实验结果可以看出,作者的方法的效果确实优于其它方法
-
作者还对自己的方法做了分析,说明方法是具有鲁棒性的。
-
最后作者做了总结并提出未来的可研究的方向
-
总结:我们提出了名为LOMO的有效描述子,并经实验验证其在视角变化和光照条件下表现出良好的鲁棒性。此外,我们提出了基于广义瑞利商的子空间与度量学习方法XQDA,并通过广义特征值分解获得了其闭式解。
-
未来展望:探索采用LOMO概念的其他局部特征或特征编码方法对于人像再识别研究而言颇具吸引力。
以上内容皆为本人观点,欢迎大家提出批评和指导,我们一起探讨!
