Advertisement

Identity Preserving Generative Adversarial Network for Cross-Domain Person Re-identification

阅读量:

论文出处:https://ieeexplore.ieee.xilesou.top/stamp/stamp.jsp?arnumber=8792068

时间:2019年

文章目录

  • 摘要:
  • 主要研究内容
  • 方法概述
    1. 基线识别模型
      1. StarGAN重构模型
      1. IPGAN
      1. IBN-识别模型

摘要:

人员重新识别涉及从不同摄像机捕捉到行人的图像数据。由于源域与目标域之间的差异 ,许多现有的行人重新识别(re-ID)方法难以将从带标签的源域训练得到的数据迁移到未标注的目标领域中进行应用 。这一问题严重限制了模型在实际应用中的扩展性和实用性 。基于带标签的源训练数据集和未标注的目标训练数据集 ,本文旨在增强re-ID模型在目标领域上的泛化性能 。为此 ,我们提出了一种图像生成网络 ,称为identity preserving generative adversarial network (IPGAN ) 。 所提出的方法展现出卓越的能力 :

  1. 主要依赖单一模型,在无需人工标注的情况下自动生成目标相机域的数据表示。
  2. 在数据生成前后都保持了来自源域的图像的身份信息,并开发了专门用于人员重新识别任务的IBN-reID模型。

该系统在泛化性能方面较之于基准模型表现出更优异的表现。 尤其值得注意的是,在无domain adaptation的情况下(without any domain adaptation)。 基于IBN-reID的方法通过监督学习方法在转换空间中的图像数据上进行了有效的训练。 基于实验结果,在Market-1501和DukeMTMC-reID数据集上进行测试后发现,在跨域行人重新识别任务中,由IPGAN生成的图像样本表现更为优秀。

在这里插入图片描述

如图1所示:从Market-1501获取了编号为2、4、6号相机的数据,并从DukeMTMC-reID中选取了6、7、8号相机的示例图像集。 具有相同身份标签的图像在同一相机视图中呈现出不同的外观特征;而同一身份在不同相机视图下则会有显著的不同表现特征。 摄像头(camera)子领域是一种能够反映特定摄像机特性的抽象概念。 因此,在分类学习任务中,Duke-MTMC-reID数据集包含8个独立的摄像头子领域,而Market-1501数据集则包含6个独立的摄像头子领域. 然而,在真实应用场景中,同一子领域的分布特性可能与另一些完全不同的子领域的分布特性存在显著差异. 例如,基于环境条件或摄像机类型的变化可能导致这种分布差异的发生. 在这种情况下,将所有子领域作为一个整体来进行分类学习可能是不够合理的. 因此,传统的基于全源-全目标域联合学习的方法可能无法有效适应实际场景需求. 基于这一认识,作者提出了一种新的无监督自适应学习方法——身份保存生成对抗网络(IPGAN)。该模型能够有效减少源领域与目标领域之间的分布差距并提升分类性能

主要研究内容

本文的主要任务氛围两个板块:

该研究开发了一个名为IPGAN的新模型

  • 一个主要驱动力是为了缩小源域与各目标相机域间的差距
  • 尽管源域中的图像样式已经发生了变化,但转换后的图像应尽力保持与原始图像相同的原真性
  • 由于数据集通常非常庞大,在跨域Person re-ID任务中所涉及的计算成本一般都不会很高。

基于星图生成网络(StarGAN)的启发设计了一种创新性的语义识别模块,在IPGAN架构中。该模块旨在确保语义一致性,在前后的转换过程中保持源域图像的身份特性恒定。通过IPGAN架构,在无监督学习框架下生成新的数据样本集合。这些新数据集不仅从源域继承分类标签,并具有与目标相机设备风格一致的数据特征。随后,在这些新生成的数据样本上进行有监督学习训练识别模型(reID)。

该研究提出了一种称为IBN-reID模型的方法,在该方法中成功消除了浅层的外观变化,并在保持深层特征学习能力的同时实现了对目标物体身份的精确识别。 该方法相较于基准模型展现出显著的性能提升。 在具体实现过程中,通过将实例规范化与批处理规范化相结合(即通过集成实例归一化与批处理归一化这两个关键模块),有效提升了网络的全局表示能力。

  1. Instance normalization is endowed with spatial and perceptual invariance.
  2. Batch normalization not only accelerates training but also facilitates the preservation of discriminative features.

相较于传统的baseline model而言, IBN-reID模型展现了更高的泛化性能.尤其是在无需进行域适应的情况下, 在源域上训练所得的模型成功部署至目标域, 并且展现出显著的性能优势.

方法介绍

1. Baseline Re-ID Model

基于ResNet-50的分类模型被采用作为行人重识别的主要架构。将两个全连接层替代为替代池化后的位置1,024维全连接(FC)层。这两个全连接层的设计维度分别为1,024与N,其中N代表数据集中的类别数量。通过交叉熵损失函数优化模型参数。

2. StarGAN Revisit

基于深度学习的生成对抗网络StarGAN是一种先进且高效的模型,在这种架构下能够通过单一模型建立多个领域间的映射关系。为了使生成图像难以被辨别为真实图像(即具有不可察觉性),将对抗损失定义为:

在这里插入图片描述

其中G代表生成器模型用于创建高质量图像样本;而D则代表判别器模型旨在识别这些高质量图像。通过输入噪声向量z和类别标签c到生成器G中生成虚假样本G(x, c)以欺骗判别器网络D. 同时,在判别器网络D顶部附加了一个分类器来辅助其鉴别真实与伪造的数据样本. 真-伪图像对的分类损失函数定义如下:

在这里插入图片描述
在这里插入图片描述

Ddom(c’ | x)定义为由生成器D计算得到的域标签上的概率分布。 为了使生成器D能够实现将真实图像x分类到原域c’以及生成目标域c中的伪图像,在此过程中StarGAN引入了cycle consistent loss这一关键组件来保证生成效果的质量。

在这里插入图片描述

3. IPGAN

通过学习非直接针对整个目标域而是专注于特定相机领域的方法来实现图像从源域向目标相机领域的转化过程,则能更有效地缓解源-靶领域间的分布偏移问题。

在这里插入图片描述

IPGAN由三个主要组件构成:生成网络G、领域区分器Ddom以及语义分辨器Dsem。(a)生成网络G专注于将目标凸轮标签所对应的领域进行映射。(b)该网络旨在利用原始领域信息与合成图像恢复原始影像。(c)领域区分器Ddom擅长识别真实与虚假图像,并尽量降低基于已知标签的误判情况。(d)如果所生成的假图像基于源域信息,则将这些结果输入到语义分辨器中。(e)通过这一过程最终消除了身份信息。

搭建IPGAN的过程涉及基础数据来源:包含标注对象实例(基于ID)与视频镜头(基于ID)。在图像间的转换阶段缺乏样本身份信息。由此可知,IPGAN是一种无需标记数据支持的人行重识别技术。

In the present work, based on StarGAN, we generate a new training dataset without identity semantic constraints. Our goal is to train a generator model capable of converting images across L+1 domains, where these domains consist of the target dataset and L source camera domains. The objective functions for the generator G and discriminator D are respectively defined as

在这里插入图片描述

具体来说,基于星盘模型(StarGAN)的设计理念,生成器G由2个卷积层、6个残差块和2个转置卷积层组成. 其识别标志Ddom采用了与PatchGAN [20]相同的架构设计.

该损失函数用于身份语义约束
本文旨在通过身份信息的保留来实现目标为此目的 ,我们设计了一个用于识别身份特征的模块Dsem (第3.1节)该模块能够有效提取并利用行人ID一致性特征以提升重识别效果数学表达式如下所示:

\text{L}_{\text{ID}} = \sum_{i=1}^{N} \mathcal{L}(x_i, \hat{x}_i)

在这里插入图片描述

在小批量处理场景下, G基于输入源域图像和目标相机域信息, 输出相应的合成图像. 其身份标签被标记为y. 在此框架下, Dsemi负责对输出图像进行分类任务, 识别其实体属性信息.

这两部分通过IPGAN框架整合,并在其基础之上构建了一种新型图像处理系统

鉴别器Ddom能够识别真实与伪造图像之间的差异,并准确判断转换后的图像属于哪个领域。
Dsem作为基于源域训练的数据集构建的预训练分类模型,在生成过程仅遵循生成器G的行为规范。
在生成过程完成之后, Dsem将严格遵守其原有的分类属性设定。
特别地, 在训练过程中, Dsem的所有参数均保持不变。

最后,整个IPGAN目标函数可以写成:

在这里插入图片描述

其中λdom、λrec和λsem是三个超参数,在实验设置中分别取值为1、10和1;这些超参数分别衡量了域分类损失、重构损失以及身份语义损失的重要程度。

借助所学习的IPGAN模型,在源域图像的基础上生成了L+1个伪样本,并使这些伪样本具有与目标域相同的样式特征;在图像到图像转换的过程中,则保持了样本的身份一致性(请注意的是,在上述L+1个样本中包含了一个与原始样式的伪样本,请忽略该伪样本)。

最终我们采用监督学习方法训练带有样式的识别模型(re-ID模型)。

4. IBN-re-ID model

为了应对源摄像机域与目标摄像机域之间存在的外观差异(appearance gap)问题,在re-ID模型中引入外部约束条件是一种可行的有效策略

批量归一化(Batch Normalization)
其主要优势在于通过深度特征来保持样本间的独特性。然而,其主要缺陷在于可能导致CNN对外观变化变得敏感。

实例规范化消除了个体对比,但同时减少了有用的信息

实例规范化和批处理规范化被视为IBN块技术的核心组成部分。该方法能够捕获并消除外观差异,并在此过程中保留了所学特征的区分能力。据我们所知,在人reID领域中这被认为是将IBN区块首次引入这一领域的研究工作。在无域适应的情况下,在源域上训练得到的模型可以直接部署到目标域上,并且该方法较之于基线模型展现出更强的泛化性能。我们选择ResNet-50 [17]作为基础模型框架,并将其主要应用于图像识别任务中。具体而言,在第一个卷积层(conv1)以及前两个卷积组(conv2、conv3)之后各添加了三个归一化层以优化特征提取过程。

在这里插入图片描述

图四:初始卷积层(conv1)以及随后添加的接下来两个卷积组(conv2 x, conv3 x)后依次接入三个归一化层。随后通过适应目标相机领域风格特征的数据对IBN-reID模型进行训练。采用的是基于交叉熵损失函数的优化方法。

全部评论 (0)

还没有任何评论哟~