【论文阅读】Identity Preserving Generative Adversarial Network for Cross-Domain Person Re-identification
该研究于2019年发表于IEEE Access期刊。这项工作基于无监督学习方法进行跨域识别研究。
该研究于2019年发表于IEEE Access期刊。这项工作基于无监督学习方法进行跨域识别研究。
摘要
-
行人再识别任务要求;
-
问题:由于源域和目标域之间的偏差,大多数现有的人员再识别(re-ID)模型常常不能很好地从源域泛化。在源域中,模型被训练到一个没有标签的目标域。(解释一下语言作为例子)
(源域和目标域:相机之间的偏差,分辨率 ,视角之间,外界环境,光照) -
解决:本文构建了两个数据集:一个有标注的源域数据集和一个无标注的目标域数据集。这些数据集旨在通过re-ID模型实现对目标领域信息的有效学习与提取。(源域有标签, 目标域没有标签)
-
方法:本文提出了一种名为IPGAN的身份保持生成对抗网络(Identity-Preserving GAN),其核心在于减少源域与目标摄像机领域的视觉差异。
-
优势:
1 首先,在仅依赖单一模型的前提下实现了无监督的目标域图像转换,并生成了多个具有目标摄像机风格的图像;接着利用这些翻译后的图像对reID模型进行训练;
2 在传统的reID框架基础上开发了一个名为IBN-reID的新模型,并引入了实例和批处理规范化块(IBN块)来进一步提升性能。
Introduction
解决两个问题
任务要求:行人再识别,在监控系统中的作用日益重要
现有的识别算法普遍致力于提取能够准确区分不同行人图像的关键特征
局限性:
基于监督学习的方法通常需要大量高质量的标注数据来训练模型,并依赖人工标注来优化特征提取器
无监督(标记)
跨域(对其他域的适应能力-泛化能力)
源域(具有完全标记信息的数据集)/目标域(没有标记信息的数据集)
在信息传递过程中,默认假设源域与目标域具有完全相同的类别结构。(例如:语言识别系统中不同方言之间的转换)然而这一假设计算机视觉领域中的特定场景并不适用。特别是对于ReID(Ring-Induced Double-Resonance)这类问题而言,在非监督学习框架下进行跨域自适应ReID的方法同样面临挑战
对于域的限定
别的方法:考虑了源和目标域之间的一般差距,而忽略了源域和目标摄像机域之间的具体差距。
问题:不同相机捕捉到的图像往往有许多明显不同的风格,因为用于图像采集的相机类型和场景不同。(相机的风格不同) 一个相机视图的特征分布可能与其他视图的特征分布有很大的不同。
提出:一个完整的域应该根据摄像机的数量划分为几个摄像机域(子域)
举例:例如,DukeMTMC-reID和Market1501分别拥有8个和6个摄像机域。只捕获两个域之间总体数据偏差的传输模型将面临严格的性能测试。较好的reid域自适应解决方案是减少源域与目标域内各摄像机域之间的偏差。 (大部分考虑的是数据集之间的偏差,但是没考虑到数据集本来相机之间的偏差)
提出风格迁移的框架包含两个部分:
目标:
- 在源域和目标相机型态之间执行类型转换
- 基于生成的图像作为输入端点, 学习一个区分度较高的re-ID模型
为了缩小源Domain与目标相机型态间的差距, 我们将在Type上将Type从Source Domain转为Target Camera Domain.
随后, 我们基于大量生成样本数据集对该reID model进行训练.
- 基于生成的图像作为输入端点, 学习一个区分度较高的re-ID模型
方法:
第一部分中提出了一种基于多领域图像到图像风格转换的方法,并命名为身份保留生成对抗网络(IPGAN)。该模型与基于源域和目标域的传统映射方法不同,在于其致力于建立源领域与各相机领域的精确对应关系。
第二部分,提出了IBN-reID模型。它是一个简单但健壮的特性提取器
IPGAN能够生成具有目标相机领域特征的图像,并额外保留原始身份信息;我们建立了新的数据集,其继承了源域标签并呈现出目标摄像头领域的样貌;通过监督学习的方式,在新数据集中训练ReID模型;并对目标数据集进行了测试;
IBN-reID
该模型具有去除浅层外观差异的能力,并能识别深层学习特征。
模型整合了实例归一化与批次归一化技术。其中,实例归一化赋予了图像可视化特性以及对外部变化的鲁棒性;批次归一化则加快了训练过程并保留了样本特异性信息。
贡献
- 为了解决域适应问题而开发了一种无监督学习方案——IPGAN。该方案的工作原理是通过模型实现源域图像向目标相机视角的转换,并成功保留了源域图像的身份信息。
- 提出了IBN-reID模型这一创新性解决方案,在该模型中直观地将外观一致性融入reid模型中。
Related work
GAN
最初的P2P系统依赖于成对图像的数据作为基础训练集。随后采用GAN的方法通过循环一致性来保持关键属性特征。然而,在现有研究中所关注的重点仍仅限于单源到单目标域的数据映射关系。在此基础上我们提出了一种全新的数据处理框架该框架能够利用单一模型实现源域图像到多摄像头目标域的高效转换从而显著提升了跨领域识别性能。
Unsupervised domain adaptation
我们的团队开发了一种无监督域自适应方法,在该方法中所关注的目标图像缺乏明确的标签。
主要思路在于缩小源领域与目标领域的差异程度
The task of re-identifying persons across domains presents challenges because it is based on the assumption that the source and target domains share identical class labels. In contrast, within a person-id context, there is no overlap between different data sets in terms of their class identifiers.
Unsupervised person re-ID
现有的大多数reid模型基于监督学习方案设计,在实际应用中存在扩展性不足的问题。近年来研究者们主要通过深度学习技术对未标注的目标数据集进行标签推断。我们提出了一种无监督学习方法;该方法通过K-means聚类算法给未标注样本分配初步伪标签,并利用这些带伪标签的数据不断优化重识别模型。我们采用k近邻逆向搜索策略来推断每个样本可能对应的类别标签,并将其用于无监督视频重识别任务。基于CycleGAN [58]框架构建的SPGAN网络系统中采用了自相似[8]策略将图像从源域映射到目标域,在特征提取阶段保留图像中的身份信息特征码。值得注意的是,在整个迁移过程以及后续的数据处理阶段均保持了相同的输入输出通道数量。
上述方法主要针对的是缩小源领域与目标领域在图像维度空间中的偏离程度。然而这些方法忽视了目标领域的图像风格这一重要因素。(这些方法通常只关注源领域与目标领域的差异等同于将两个领域纳入同一个学习过程中它们并没有考虑到同一领域的相机之间的不同所带来的影响)
考虑到由目标相机引发的域内图像变化,并从这些领域中学习了目标域的关键判别特征。然而由于未考虑到识别语义约束这一重要条件的存在,在这种情况下该方法就无法维持原图与翻译图之间相同的识别信息。另外该方法在处理多组数据时表现出有限的扩展性这是因为每当面对一组新的数据集就需要单独训练相应的模型
与它们不同的是, 不同于以往的方法, 我们的创新之处在于特别注意地考察了源域与目标摄像机领域之间的差异, 并且我们仅通过一个模型就能掌握多个领域间的关联. (基于starGAN的强大能力)
问题:
除了现有的其他一些GAN方法外(即它们仅专注于另一个领域整体特征的学习),并未充分考虑到同一领域的内部差异性;
为了更好地捕捉这种内部差异,则需要让生成器具备适应不同摄像头独特风格的能力(例如分别学习A-C1、A-C2、A-C3三个版本),从而使得一张图像能够呈现出三种不同的风格表现;
源领域的标签与目标领域中的各个相机之间的对应关系是如何建立起来的?
BASELINE RE-ID MODEL
在源域中存在一个身份标签X_s,I_s,在目标域中存在未标记的数据集X_t。
我们的目标是利用带标签的源域数据来训练一种可迁移的re-ID模型。
该模型能够有效地在目标测试集上进行推广。
其中backbone网络采用ResNet-50架构,并用于学习特征表示。
我们通过替换池化操作后的最后一个全连接层(1024维)和一个新的全连接层(N维)来优化网络结构。
STARGAN
GAN讲解详

星域生成对抗网络(STARGAN)作为一种先进的深度学习模型,在生成领域取得了显著成果

# method
IPGAN
在真实世界中, 不同的角度下的相机视图会呈现出各自独特的类型与差异性, 而本文则将我们研究的目标领域划分为多个独立的小区域, 即各个摄像机区域. 虽然这些区域之间可能会存在显著的区别, 但单独考虑任何一个区域的行为模式时却能获得更为精确的结果. 平滑源区域与目标区域之间的差距可以通过分别对每一个独立的目标摄像头区域进行建模来实现最小化. 我们的这种方法确保了传输后的图片风格与目标摄像头区域内的图片具有一致的表现特征. 此外, 该方案还能够有效保留原始来源图片的独特标识信息. Ddom系统接受由G(x;c)生成器输出的真实假图片以及其来源的真实图片作为输入.
和STARGAN的区别
专为跨域识别任务设计的生成对抗网络(IPGAN)在降低两个不同识别数据集间的偏差方面表现更为出色。
该网络不仅专注于分析图像中的低层特征变化(如颜色和纹理),还特别关注并捕捉到图像高层语义信息的变化(如物体类别与布局)。这样可以更好地适应不同领域间的差异。
通过开发出一种新型语义鉴别器Dsem, IPGAN成功地实现了图像源域身份信息在直接受益前后均保持不变这一技术性要求。
IBN-re-ID model
深入解析IBN机制

