Advertisement

Unlabeled Samples Generated by GAN Improve the Person Re-identification Baseline in vitro 论文阅读

阅读量:

这篇研究来自Liang Zheng团队在CVPR2017上发表的论文中提出了一种基于生成对抗网络的方法来提升行人在未标注类别下的重识别性能。

开源行为由该源码作者执行:【GitHub仓库链接

围绕三个动机展开讨论。首先是作者的观点:因为当时用于reID的数据集需要手动标注bounding box和ID标注工作较为繁琐耗时, 因此提出利用GAN快速生成大量reID训练数据以缓解这一问题。其次指出的是论文指出当时的GAN技术已经较为成熟. 然而, 在reID领域中尚未有广泛应用. 另外参考知乎上的问题https://www.zhihu.com/question/53001881?from=profile_question_card. 最后则是关于如何将无标签的GAN生成数据应用于实际训练的问题: 因为这些样本缺乏类别标签信息, 在实际训练过程中如何有效利用仍是一个值得探讨的方向, 在后续部分会与几种方法进行对比分析

围绕该研究课题展开深入探讨后,在理论与实践层面做出了三项创新性贡献。其次,在方法论层面开发出一种基于GAN辅助的数据融合方法。再次,在算法层面为离群无类标的样本分配合理类别标签。最后,在实证研究方面证实了所增数据对提升目标检测系统的识别精度具有显著作用。

本文将向大家介绍一下Generative Adversarial Networks(GAN),这是一种主要由生成器和判别器两个子网络构成的深度学习模型。其中判别器的作用是区分并判断生成的数据是否为真实数据来源;而生成器则是为了通过不断优化迭代使其创造出来的图像能够更加逼真以至于能够欺骗判别器。自2014年Goodfellow等人首次提出GAN概念后;2016年又提出了DCGAN模型以增强训练稳定性;随后 InfoGAN、3D-GAN等改进型模型进一步提升了生成图像的质量和逼真度。在本文中我们采用的是一个基础化的DCGAN架构;所展示的所有图像都是该模型在Market1501数据集上的训练结果。

在基于re-ID的数据集生成的图像中,在提出LSRO方法之前的研究者们主要采取了以下两种策略:一种策略是All in one方案,其核心思想是在原有数据集的基础上添加了一个新的类别标签,并将所有生成的样本统一归入该类别中;另一种常用的方法是伪标签技术。该技术通过将每个生成图像输入到预训练网络中进行推理,并将其分配到预测概率最高的类别中。

Approach部分

让我们深入了解该方法的工作原理及其网络架构。如图所示的是本文提出的方法流程图。主要包含两部分:一部分基于生成对抗网络实现无监督学习;另一部分则基于卷积神经网络实现半监督学习。真实数据(Real Data)是一类标定样本的数据集合;训练数据(Training Data)则是通过将真实数据与GAN生成的未标注数据相结合,并将其输入至卷积神经网络(CNN)中进行学习。

论文方法的generator模型基于DCGAN其内部结构具体参考论文Unsupervised representation learning with deep convolutional generative adversarial networks链接:https://arxiv.org/abs/1511.06434。该模型采用一个100维的随机向量通过 reshape操作和一系列反卷积层等操作最终生成一个128x128x3的样本具体流程如图所示。

DCGAN架构具有几个显著特征,在生成器模块中采用stride卷积取代传统的池化层;而在判别器模块中,则采用fractional-stride卷积进行池化操作。接着在生成器和判别器模块中均应用了批归一化操作;这些操作的主要优势在于能够有效解决初始化差异问题,并促进梯度在整个网络层次的有效传播。另一个改进之处在于去除了传统的全连接层,并采用全局平均池化操作代替;这种设计可以显著提升模型的稳定性。

该研究中的深度学习框架采用了ResNet50作为基准架构,并将生成图像与原始图像混合后输入到预训练的ResNet模型中进行微调训练。随后采用了一种经典的参数微调方法。随后将全连接层优化为具有K个神经元的数量(即原始数据集标签的数量)。与以往相关研究中常使用的One versus All策略及伪类别标注法不同,在现有类别基础上采用了统一类别标注分布方案因而最终全连接层仍保持K维输出结构。

回到正题,在详细阐述论文提出的LSRO方法时,请注意以下要点:首先针对现有分类的问题而言,在现有分类体系中进行预测时,交叉熵损失函数即为此方法的核心机制。具体而言,在CNN网络中,p(k)代表CNN网络对第k类的概率预估,q(k)则基于ground truth类别进行定义,即当第k类属于ground truth类别时,q(k)=1,反之则q(k)=0。实际上,在排除那些q(k)=0的情况后,该交叉熵损失函数便体现出了其本质即为这一计算方式。通过最小化交叉熵损失函数,则等价于最大化ground truth类别对应的预测置信度,然而这种设计却完全忽视了其他非ground truth类别的影响。

为此提出了LSR方法。其q(k)函数形式如下所示:其中_艾普斯隆_被定义为一超参数,在其取值为零时等同于原始形式,在参数过大会导致对groundtruth类预测效果受限。因此通常取值建议为0.1。基于此设计的损失函数能够综合考虑非-ground truth类别的影响。由此可见相较于之前的模型而言该改进方案在分类性能上更具优势。

LSRO 是本研究提出的一种针对图像离群现象的标签平滑正则化方法,在该方法中将无类标图像与输入图像进行整合处理。具体而言,在LSRO过程中会对原始无类标图像赋予一个虚拟标签,并基于以下假设进行标签分布设计:即该虚拟标签不属于预先定义好的任何类别范畴。因此,在这种情况下所有的生成图像都会被赋予一个统一的类标分布q(k),其中k表示预先存在的各类别标签的数量。通过这种方式可以构建相应的交叉熵损失函数:当Z=0时对应真实图像的损失函数计算;而当Z=1时则代表生成图像的损失函数计算。通过这一过程实现了真实图像与生成图像在损失函数上的有效结合,并通过示意图展示了这一核心思想:即真实图像采用经典标签分布方式训练;而生成图像则采用基于LSRO的方法进行标签分布设计。

实验部分就略了,原文实验结果很详细。

Conclusion

A semi-supervised pipeline architecture is designed to incorporate GAN-generated images into the neural network training process. A novel LSRO (label smoothing-based regularization technique for outlier samples) method is proposed within the semi-supervised learning framework. Experimental results indicate that low-quality GAN-generated images effectively showcase their inherent regularization capability .

全部评论 (0)

还没有任何评论哟~