Masked Graph Attention Network for Person Re-identification
Masked Graph Attention Network for Person Re-identification
github
摘要
主流的人行重识别方法(ReID)侧重于个体样本图像与其标签之间的关联性分析,并未充分考虑样本集中丰富的全局互信息资源。鉴于此,在现有研究中存在一定的局限性。为此,本文提出了一种名为掩膜图注意力网络(Masked Graph Attention Network, MGAT)的新方法。该方法通过提取的有效特征构建了一个完整的图结构,在标签信息引导下使节点聚焦于其他节点的重要特征,并通过掩膜矩阵的形式实现定向关注。在此基础上,在现有特征空间上生成了更具鉴别能力的信息表征,并将其转化为优化后的特征空间以提高模型性能。同时,在本文提出的框架中引入了反馈机制:将该模块学习到的信息反向传递至原始特征嵌入网络中以增强映射关系的表现能力。这样不仅避免了传统方法在测试阶段处理大规模图数据时带来的计算负担问题,还进一步提升了模型的整体性能表现。在本研究中对三个典型的数据集进行了系列实验验证:结果表明,在多数基准测试任务上所提方法均优于现有的主流算法;同时与最新的研究工作相比也展现出很强的竞争优势
引言
大多数主流方法主要依赖于id loss这一指标来单独评估每个特定属性(feature)的分类标签分布情况。然而这些方法却忽视了各属性之间错综复杂的相互作用关系即它们之间存在的丰富交互信息。换言之尽管这些方法在分析时集中关注了属性图中的分类特性但它忽略了一个关键点即各属性间的聚类特性这一重要维度的信息未加考察这种特性指的是同一类型属性内部聚集的程度与不同类型的属性之间分离的程度通过辨别分析研究表明在提取区分性征方面的要求上当前方法存在明显的不足因为这种方法未能充分考虑到提高区分度所需的高质量聚类信息

为此目的,作者提出了一种新型的网络架构MGAT来探索特征之间的丰富交互信息。该网络的核心基于节点更新机制中的掩模注意力模型,并与基于注意力矩阵值统计的方法构建卷积神经网络存在显著差异
具体流程如下:我们首先将学习获得的特征embedding网络进行重构以构建完整的图结构;随后基于MGAT模型通过注意力机制对节点进行权重更新;接着借助掩码矩阵指导节点间关系的调整方向(如促进同类节点间的聚合或抑制异类节点间的关联)。最终特征将形成改进后的聚类表征。
id loss 直接监督了 MGAT 的优化输出特征,并为此提供了足够的分类依据。随后,在这一过程中引入了一个 optimization feedback (OF) loss 用于监督这一反馈机制的效果。其目的就是提升特征嵌入网络的映射能力,并避免后续操作中出现无法通过端到端流程解决的问题(如重排序等非端到端的操作)。
网络结构
文中将MGAT 和 ResNet50 整合到一起做ReID.模型结构如下:

1.概述
网络结构主要包含三个关键组成部分:第一是特征提取过程;第二是经过MGAT进行的特征优化处理;第三是将经过学习获得的最优信息传递至CNN网络中的特征嵌入空间。
给定一批图像,在CNN模型下提取出一系列具有独特性的特征表示X。每条特征均与一个特定的关联图像相配对。将这些特征图视为独立节点并构建了一个完整的图结构,在该结构中每条边用于衡量它们之间的相似程度(包括自连接)。该图将被输入至多层图 attention( MGAT )进行优化训练,在这一过程中需要注意的是 MGAT 的输出特征 X’ 在训练过程中需通过 identity loss 监督学习来确保其有效性。
此外,在处理输入特征与原始特征之间的差异时
2.MGAT 网络
该网络旨在通过捕捉行人重识别中被忽视的重要交互信息来实现聚类特征的最佳化。其输入为基于CNN提取的N个d维特征向量集合X,在经过处理后生成一个新的X'集合(包含N个 d' 维向量)。为了确保优化后的聚类结果能够更好地反映原始的人行重识别数据特性,并使优化后的聚类结果与原始数据保持一致的关系联系性,在此设定下我们采取约束条件使得优化后的维度与原始维度相同。
MGAT主要应用于处理图数据,在将特征向量视为节点属性的基础上,默认假设任意两节点之间的关系定义为边E,并构建一个全连接图G(X, E)。通过欧氏距离计算得到各节点间的连接权重e_ij。
MGAT 的创新性地引入了mask-based attention mechanism。该架构其核心在于为了适应边的设计需求而被设计出来,并旨在通过提升聚类性能来优化图神经网络性能。其注意力机制主要包含两方面的内容:首先是注意力矩阵A(代表节点之间的关联关系),其次是掩码矩阵M(用于控制节点之间的信息传递)。
2.1注意力矩阵
注意机制通常用于展示两个特征图之间的关系。在我们的完全图中因为两节点间的距离由边唯一确定我们便能够较为严谨地构建一个基于该距离的注意方程f从而将边与对应的注意进行关联。
实际中,我们这样定义注意力。公式如下:

左边表示i节点与j节点之间关系的重要性。γ被定义为一个超参数,在注意力机制中用于限制注意力权重的范围。通过观察公式可以看出,在边长度较短的情况下(即连接两个节点之间的路径较短),注意力权重较高。可以观察到,在传统GCN架构中(即只考虑邻接关系而不构建更高阶连接),每个节点通常仅受其邻接节点的影响。然而,在本研究中构建的是一个包含所有图像节点的一阶完全图(即所有可能的连接都被考虑进去)。因此,在本研究中我们对每个节点与其他所有节点计算注意力权重以获取全局特征表示。这个过程通过L1正则化来增强不同区域之间的兼容性

在批处理过程中处理了N张图后,我们成功构建了一个形状为[N×N]的注意力矩阵A。其中,在该矩阵中每一行都对应着某个特定节点与其他所有节点之间的注意力权重分布情况。
2.2 掩码矩阵
注意力矩阵反映了图中节点信息的重要性 GCNs 和 GATs 利用这些信息去更新节点 基于连接点最有可能是同类别的这一假设 然而这一假设可能限制了模型的能力 因为它只关注到了相似性 并且难以处理难度较高的样本
基于注意力机制的框架下,在该问题求解的过程中,我们引入了掩码矩阵这一工具。具体而言,在同类标签之间建立边长关系时采取缩减策略,在跨类别标签之间则采取拉伸策略。这种设计灵感来源于自注意力机制的基本原理:通过权重分配机制自动确定各序列之间的关联性程度。例如,在一个batch样本集合中(batch size为N),每个样本对应一个唯一的ID(总共有M个ID),其中每个ID又对应K张图片(如图所示)。

yi是指id为i的标签,掩码矩阵的元素由下式计算:

那个符号表示向下取整操作,并且该符号用于表示一种特定的操作或函数关系。M是一个K\times K维度的对角矩阵,在其主对角线上元素为1,在非主对角线上元素均为-1。作为注意力机制中的一个关键组件,在计算时将该掩码作用于注意力矩阵A上以实现多头自 attention功能。具体而言,在计算过程中通过与目标向量点积的方式生成新的权重系数,并结合激活函数进行变换以增强模型在聚类任务中的性能表现
有人认为负掩膜会破坏归一化结果吗?实际上在这种情况下的默认正则项设计其主要作用在于使各层节点之间的活动保持一致性
2.3 节点更新
将特征集\mathbf{X}表示为矩阵形式。在更新过程中回顾传统的GATs仅使用了注意力矩阵\mathbf{A},通过线性组合的方式得到节点的输出特征。

在研究中为了引入一个新的掩码矩阵 M 我们获得了标签监督定向信息以节点特征为基础进行分析。输出的具体表达式如下:

同样,单个节点的更新为:


MGAT与传统GATs相比,在展示该过程方面具有显著差异。值得注意的是,在卷积GATs中是通过计算相应的线性组合来生成最终输出特征,并不依赖标签监督来进行类别分离。作为一种对比手段,在给定掩模矩阵的前提下, 我们的MGAT方法根据节点所属类别采用了不同的注意力机制进行处理, 其他方法则无法实现这一特性.

3.OF loss
为了减少在测试阶段构建图所需的工作量,我们通过基于OF损失的方法使CNN能够直接生成最优的特征。采用了最为基本的方式确保MGAT输出特性与CNN提取的嵌入特征的一致性。

作者说他们没有独立的研究这样做对最后的结果有何影响。
实验
因未开源作者代码因此无需深入探讨训练细节不妨关注各数据集的表现情况




