Graph Correspondence Transfer for Person Re-Identification论文笔记
摘要
提出了GCT(图关系迁移)模型解决行人重识别问题,与现存的方法不一样,GCT将行人重识别视为一个离线的图匹配问题和一个在线的关系迁移问题。在训练过程中,通过patch级别的图匹配,在具有不同姿势对配置的正样本对中离线的学习得到一个关系模版集合。测试过程中,对于每一对测试样本,选择几对姿势对配置最相似的训练样本对作为参考样本,将这些参考样本的关系迁移到测试样本中以计算特征距离。将该测试样本对与所有参考样本对的特征聚合得到最终的匹配score值。与现有的方法对比,GCT采用了patch级别的图匹配,可以较好的解决由于拍摄视角变化和行人动作变化造成的空间上对不准的问题。
Motivation
对于行人重识别任务,一个最主要的挑战就是由于拍摄视角和行人动作多样的变化造成的图片对之间空间上对不准的问题。大部分现在的方法主要关注的是通过比较图片之间整体的差异解决行人重识别问题,但这些方法忽略了空间上对不准的问题。为解决这个问题,许多工作采用基于局部的方法,这些工作将任务划分成局部的小块,然后进行patch级别的匹配。这些方法在一定程度上解决了空间上对不准的问题,但是由于缺乏空间和视觉语义的上下文信息,在视觉上相似的身体外观或者有遮挡的情况下,这些方法仍然会失败。
本文提出通过图匹配,为正训练样本对学习patch级别的匹配模版,然后将这些patch级别的关系迁移到具有相同pose pair configurations的测试样本对中。在图匹配的过程中,空间上下文信息和视觉上下文信息都利用到了。
Method
GCT方法一共包含三个部分:训练阶段通过patch级别的图匹配学习正样本对之间的关系、通过动作对配置比较选择参考模版、基于关系迁移的patch级别的特征距离计算和聚合。

Patch-wise correspondence learning with graph matching
首先、将图片分解成许多可重叠的patches,然后将每一张图片编码成一个无向的属性图G=(V,E,A^V),每个顶点v_i表示图片中的一个分快,每条边编码了连接着的顶点对之间的上下文信息。A^V=\left\{A^{V_P},A^{V_F}\right\}是顶点的属性,代表局部分快的空间和视觉特征。
在训练阶段,给定一个正样本对I_1和 I_2具有相同的标签l_1=l_2,代表同一个人,他们可以分别表示成G_1=(V_1,E_1,A_1^V)和G_2=(V_2,E_2,A_2^V)。patch级别的关系学习的目的是建立V_1顶点集合和V_2定点集合的联系X \in \left\{0,1\right\}^{n_1\times n_2},建立无权图,使得在训练集中同一个人的相似度尽可能的大。X_{ia}代表I_1中的第i个图像块和I_2中的第a个图像块语义上是有联系的。数学意义上,Patch-wise correspondence learning可以表示成一个整数二次规划。
\arg\max_x \quad x^TKx \\ s.t. \quad \begin{cases} \quad X_{ia} \in \left\{0,1\right\}, \forall i \in \left\{1,\cdots,n_1\right\},\forall a \in \left\{1,\cdots,n_2\right\} \\ \sum_{i}X_{ia} \leq 1,\forall a \in \left\{1,\cdots,n_2\right\} \\ \sum_aX_{ia} \leq 1 ,\forall i \in \left\{1,\cdots,n_1\right\}\\ \end{cases}
其中x=vec(X),即为矩阵X的向量化表示,其维度为n_1n_2\times 1,K\in \mathbb{R}^{n_1n_2\times n_1n_2}代表矩阵G_1和矩阵G_2的亲和度矩阵,编码了两个图的顶点和边之间的关系相似度。
亲和力矩阵的设计
由于人体动作和拍摄视角的变化造成的人体形态之间的巨大差异,采用传统的基于人体轮廓设计的亲和力矩阵是不适合的。考虑到Re-ID中视觉外观的重要性,将人体的空间轮廓和视觉特征共同考虑去构造亲和力矩阵。
详细来说,K矩阵的对角线元素K^{ia,ia}按如下方式计算得到
K^{ia,ia}=S_{ia}^P \cdot S_{ia}^F
其中,S_{ia}^P和S_{ia}^F分别是顶点V_i和顶点V_a之间的空间位置相似度以及视觉特征相似度。计算方式如下:
\quad S_{ia}^P=\exp(-{\|A_i^{V_P}-A_a^{V_P}\|}_2)
\quad S_{ia}^F=\exp(-{\|A_i^{V_F}-A_a^{V_F}\|}_2)
其中A_{i}^{V_P}和A_a^{V_P}分别表示V_i和V_a的空间位置,A_i^{V_F}和A_a^{V_F}分别表示v_i和v_a的视觉特征。
相似的,矩阵K中的非对角线元素K^{ia,jb}编码着两条边e_{ij}其中v_i\in V_1,v_2 \in V_1和e_{ab},其中v_a \in V_2,v_b \in V_2之间的相容性(compatibility),计算方式如下:
K^{ia,ib}=S_{ij,b}^P \cdot S_{ij,ab}^F
其中S_{ij,ab}^P和S_{ij,ab}^F分别表示边e_{ij}和e_{ab}之间的空间位置相容性以及视觉特征相容性。计算方式如下:
S_{ij,ab}^P=\exp(-{\|(A_i^{V_P}-A_j^{V_P})-(A_a^{V_p}-A_b^{V_P})\|}_2), \\ S_{ij,ab}^F=\exp(-{\|(A_i^{V_F}-A_j^{V_F})-(A_a^{V_F}-A_b^{V_F})\|}_2),
通过这种方式计算得到的亲和力矩阵K在图匹配过程中隐式地嵌入了空间位置和视觉特征的上下文信息,使得匹配的顶点和边会有更大的相似度,并且在空间位置和视觉特征上会更加具有相容性。
离群点的删除
因为存在空间位置上对不准的问题,在一个视角上的图像块,可能在另一个视角并不存在。如下图的情况

因此,进行patch之间一对一的匹配将带来大量的噪声,影响性能。因此,只建立正样本图片对之间同时出现的部分之间的联系是更加合理的。所以在原来的公式基础上,添加了一个正则项。能够使probe图片中在空间位置和视觉特征上有更高相似度的patches被激活,同时在图像对中不同时出现的patches被擦除。所以目标函数可改写为:
\arg\max_x \quad x^TKx-\lambda {\|x\|}_2^2 ,\\ s.t. \quad \begin{cases} \quad X_{ia} \in \left\{0,1\right\}, \forall i \in \left\{1,\cdots,n_1\right\},\forall a \in \left\{1,\cdots,n_2\right\} ,\\ \sum_{i}X_{ia} \leq 1,\forall a \in \left\{1,\cdots,n_2\right\} ,\\ \sum_aX_{ia} \leq 1 ,\forall i \in \left\{1,\cdots,n_1\right\}\\ \end{cases}
其中\lambda是一个权衡因子,用来控制一个新的probe顶点被激活的难度。更大的\lambda意味着需要更大的相似度来激活一个新的patch顶点。
Reference selection via pose-pair configuration comparison
学习到的Patch-wise联系可以迁移到测试集中具有相似姿态对配置的图像对中,并且这些迁移得到的联系可以直接应用来计算probe和gallery图片对之间的相似度。因此,对于test set中的每个图像对,我们需要找到训练集中的最佳参考模版。由于姿态配置跟身体的朝向紧密相关,可以通过比较不同姿态对之间的身体朝向来计算相似度。
提出了采用简单有效的随机森林方法,比较不同身体朝向。根据身体朝向,行人图片可以分为8种,分别是:左,右,前,后,左前,右前,左后,右后。如下图所示。

为了训练随机森林模型,每个图片被表征成多层次的HoG(梯度直方图)特征,cell size分别设置成8\times 8,16\times 16,32\times 32,然后把他们分别放入决策树中从而构建随机森林。当随机森林M=\left\{tree_1,tree_2,\cdots,tree_T\right\}被构建完成时,身体朝向的相似度可通过如下公式计算得到:
O(I_i,I_j)=\frac{1}{T}\sum_{t=1}^Ty_{ij}^t,
其中y_{ij}^t是一个指示函数,y_{ij}^t=1表示I_i和I_j在决策树tree_t\in M中落到同一个终端节点,反之y_{ij}^t=0。
对于给定的两个图像对P=(I_p,I_g)和P^{\prime}=(I_p^{\prime} ,I_q^{\prime}),他们的姿态对配置相似度S(P,P^{\prime})可通过如下公式计算得到:
KaTeX parse error: Undefined control sequence: \cdotO at position 37: …p,I_p{\prime})\̲c̲d̲o̲t̲O̲(I_g,I_g{\prim…
通过上式计算得到测试图片对和训练集中的正样本图片对的姿态相似度,然后选择具有最高相似度的R个训练图片对作为该测试图片对的最佳参考模版对。如下图所示。

Distance calculation and aggregation with correspondence transfer
对于测试集上的每一个图片对,由于姿态对配置相似的图像对倾向于有patch级别的联系,提出将选中的参考模版图像对的匹配结果进行迁移以计算给定测试图片对的patch-wise 特征距离。具体计算方法如下。
对于一个测试图片对\bar{P}=(\bar I_p,\bar I_g),其中\bar I_p表示probe图片,\bar I_g表示gallery图片。\tau=\left\{T_i\right\}_{i=1}^R表示选中的R个模版构成的集合。对于每个选中的模版T_i=\left\{c_{ij}\right\}_{j=1}^{Q_i},包含Q_i个patch-wise联系,同时每一个patch-wise联系c_{ij}=(w_{ij}^p,w_{ij}^g)表示probe和gallery中匹配的局部patch的位置。
对于一个测试图片对\bar P,可通过如下方法计算两张图片的特征距离D.
D(\bar I_p,\bar I_g)=\sum_{i=1}^R\sum_{j=1}^{Q_i}\delta(f_p^{w_{ij}^p},f_g^{w_{ij}^g})
其中\delta(\cdot,\cdot)表示一种度量方式,f_p^{w_{ij}^p}和f_g^{w_{ij}^g}分别表示位于probe图片\bar I_p中w_{ij}^p位置和gallery图片\bar I_g中w_{ij}^g位置的特征。最终采用Local Maximal Occurence feature来表示每张图片。
计算得到patch之间的特征距离之后,这些特征距离平等的聚合得到图片对的特征相似度。gallery中与probe距离最短的图片为重识别的结果。
