【论文笔记】Omni-Scale Feature Learning for Person Re-Identification
这篇论文介绍了一种轻量级卷积神经网络(OSNet)来解决人员重新识别(ReID)问题。通过设计全尺度残差块和统一聚合门(AG),该模型能够高效地学习全方位的特征表示,并动态融合不同尺度的特征信息。实验表明,尽管模型体积较小但依然实现了最先进的性能,并且适用于中小数据集和大规模监控应用中的ReID任务。
https://github.com/KaiyangZhou/deep-person-reid
作为基于实例级的人脸重新识别问题(ReID),该方法依赖于判别特征向量并能够捕捉不同空间尺度的同时还能够整合任意多个尺度的特征组合。我们将其称为同构与异构尺度下的全维度特征表示。在本研究中,我们提出了一种新型全局感知卷积神经网络(Omni-Scale Network OSNet),其主要贡献在于通过多支卷积特征流模块构建了一个完整的端到端ReID系统。每个卷积分支能够独立检测特定的空间尺度特性信息,并通过深度残差连接模块实现跨尺度信息的有效传递与融合。为了进一步提升模型对空间通道相关性的感知能力并避免过拟合现象的发生,在网络架构设计中引入了一种统一聚合门机制,在此过程中动态融合了多维度的信息以及输入相关的信道方向权重向量。通过逐层递增的方式堆叠这些深度感知模块之后所构建起来的整体架构不仅具有极简化的参数规模而且能够在现有标准测试集上实现零样本学习能力[1]。尽管所提出的OSNet模型规模相对较小但其在六个主流的人脸重新识别数据集上的性能表现依然优于现有的所有同类算法
挑战:1)相机视角的变化带来的行人变化
2)类间差异小 公共场合不同的人穿着类似的衣服
解决方法:学习判别特征
omni-scales 同构和异构尺度的全尺度特征
全局特征和局部特征同样重要
还需要一些独特的组合:比如白t恤+上面的logo
由跨越小(徽标大小)和中(上半身)大小的异构功能捕获,使功能最有效
现有的reid模型没有全尺度特征学习的,同构和异构
OSNet:学习全尺度特征表示
结构: 基本模块由多个卷积子网络构成,并各自具有独特的感受野范围(如图2所示)。每个卷积子网络聚焦于特定的空间尺度参数,其中指数作为一个新的维度因子,在整个流程中逐步递增以保证各个模块能够全面捕捉不同尺寸和比例的信息。
核心的是提取出多尺度特征图,并实现了这些特征图之间的动态融合。该聚合门(AG)是一个跨流共享参数的可训练子网,并包含了多个优化模型训练所需的理想属性。通过可训练的AG实现,在导出的方向权重表现出对输入特异性的适应性。这种创新设计赋予了模型高度灵活的选择能力:对于特定输入图像,在各向异性分析中可以选择聚焦于单一尺度;或者通过混合不同方向的信息来构建多样化的特征。

设计了一个轻量级的网络:
带来的具体好处在于:小规模数据集(基于ReID的数据集通常规模较小)能够有效避免出现过拟合现象;在大型监控系统中ReID方法从设备端提取特征信息。
效果:比流行的基于ResNet50的模型小一个数量级,但却非常强大
在6个reid数据集上实现先进性能
OS 特征学习
在本节中, 我们对OSNet进行了介绍, 该网络以全面研究人ReID任务为目标, 采用分解卷积层作为基础模块, 并整合了全尺寸残差模块和统一聚合门结构。
分解卷积: 通过减少参数数量来优化计算效率,我们采用了深度可分离架构,将标准卷 conv 分解为逐点卷 conv 和深度卷 conv 两部分.标准conv操作由4D张量w∈R{k×k×c×c₀}进行参数化描述,其中k代表内核大小,c代表输入通道数,c₀代表输出通道数.以探究输入张量x∈R{h×w×c}的空间通道相关性为目标,其中h代表高度,w代表宽度.该过程可通过如下公式表示:x0=φ(w∗x),其中φ是非线性激活函数(ReLU),*表示为标准的二维卷积运算.忽略偏置项不影响主要逻辑流程.如图3(a)所示,展示了标准实现下3×3大小的卷积层结构图

设u \in \mathbb{R}^{1\times1\times c\times c_0}表示一个逐点卷积核,并紧密地连接至信道维度k;而v \in \mathbb{R}^{k\times k\times 1\times c_0}代表一种深度卷积核,在感知域k上聚合每个feature map的局部信息。我们通过将权重参数\mathbf{w}分解为v \circ u的形式来解耦空间信道相关性学习过程,并定义变换关系\mathbf{x}_0 = \phi((v \circ u) * \mathbf{x})如图3(b)所示。这种设计使得计算开销从h\cdot w\cdot k^2\cdot c\cdot c_0降至h\cdot w\cdot (k^2 + c)\cdot c_0;同时参数数量也从k^2\cdot c\cdot c_0减少至(k^2 + c)\cdot c_0。值得注意的是,在本实现中,在逐点卷积之前应用了深度卷积层(参考文献[39]),而传统的深度可分离卷积则是先进行深度方向上的操作。基于实验结果表明:相较于传统顺序(深度方向→逐点),我们的设计(逐点→深度)在全局特征学习方面表现出更好的性能。
OS残差块 :
为了构建全方位表示模型,我们提出了一种基于指数t的特征尺度扩展方法。该方法通过将残差函数F进行扩展,在保持原有功能的基础上增加了新的维度信息。具体而言,在F_t的学习过程中,默认情况下当取值大于1时(即t>1),我们会依次堆叠多个Lite模块(每个模块包含3×3卷积层),从而形成了(2t+1)×(2t+1)的感受野区域。其对应的残差项x̃被定义为从初始表示到T级表示之间增量比例的累加和

统一聚合门****:****
每个流能够为我们提供特定比例的特征, 即它们是均匀分布的比例. 为了获取全尺寸特征, 我们提出了一种动态组合不同流输出的方法, 即根据输入图像赋予不同的尺度权重, 而不是在训练完成后固定这些权重. 进一步说明的是, 动态规模融合是通过一种新颖的设计实现了聚合门(AG)这一模块, 这是一个可学习型神经网络结构.
值得注意的是,在使用基于粗规模融合的基础单个标量输出函数时,在采用AG子网G(xt)输出的情况下(其中αt是第t个流对应的向量而非标量),这种设计实现了对每个特征通道更为精细的融合过程。 通过调节机制实现动态计算输入数据对应的权重值。 对于ReID而言作为测试图像的关键性在于它需要包含来自训练集中不同身份的人;因此更倾向于采用适应于输入相关特征尺度变化策略。
网络结构:

结论
我们提出了OSNet架构,在保证紧凑型设计的同时能够有效提取全方位特征表示。通过系统性评估六个ReID基准数据集的结果表明,在保持轻量化特性的同时仍可达到最先进的性能水平。此外,在单标签目标识别和多标签属性分析两个典型场景中也进行了深入测试。实验结果证实,在这些任务场景中表现优异的OSNet架构不仅限于ReID领域,在其他视觉识别问题上同样具有广泛的应用潜力。
