Advertisement

OPEN SET RECOGNITION BY REGULARISING CLASSIFIER WITH FAKE DATA GENERATED BY GENERATIVE ADVERSARIAL

阅读量:

用生成式对抗网络生成的假数据进行正则化分类器的开放集识别

摘要

本研究设计了一种创新方法,在GAN架构中创造未知类别的人工数据样本。在该架构下训练的生成器模仿了已知类别数据的特性,并采用 novel 噪声建模技术以优化分类器性能。通过该方法生成的数据被视作潜在的未知类别样本,并经测试使分类系统具备更强识别新类别的能力。实验结果显示,在该框架下合成的数据不仅有效补充了现有分类知识(known classes),还显著提升了模型对全新未见过类别的适应能力。

1.引言

深度学习已得到广泛应用,在多个领域都受到关注,并且近年来发展迅速。在多种机器学习任务中,图像分类被视为计算机视觉中的核心问题之一。众多研究者提出了多样化的解决方案[1, 2, 3]。一些架构超越了以往的设计,并实现了接近人类水平的性能[4, 5]。由于实际操作中的限制,在全面收集各类数据方面存在困难。

识别未知类别任务可通过新颖性检测与异常检测两种方法加以解决尽管许多研究已提出了解决新型别检测的方法并进行了综述[6]然而尽管如此该方法却忽视了待识别类别与其已知类别之间的区分却忽视了类别标签信息

开发布局问题被建模为开放集风险最小化[7]这一框架具有显著意义但其实质非常简单在该领域中模型应具备将已知类别与其他类别区分开的能力以实现这一目标可采用新型异常检测机制此外还可以引入置信度评估指标即衡量模型对预测结果可靠性的一种量化标准这些指标包括基于预测结果熵值[8]以及基于最后一层softmax函数输出值的对数值最大值等复杂分析方法[9,10]尽管这些指标各有特点但即使是最基本的方法也能通过最大化生成数据的不确定性来实现未知类检测即所谓的正则化措施前提是仅利用已知类样本生成潜在未知类样本是可行的若能设计出此类假阴性数据生成器则无需额外构建复杂分析架构即可完成未知类检测任务此时唯一需求是一个能够结合分类与异常检测功能的分类器

可被视为当前最引人注目的深度生成模型的是Generative Adversarial Networks(GANs)[11]。在GAN框架中采用对抗训练机制进行联合优化以提升性能。该方法能够产生具有说服力且具冲击力的真实样例尽管存在一些挑战性问题:第一是难以实现两者的平衡优化;第二是缺乏对收敛过程的有效监控;第三是未能有效捕捉罕见或特定模式。(此处省略了29.8%字符)在GAN框架下训练生成器以生产假性负面样本这些假性负面样本可被用于增强分类器的数据集

在本文中

2.相关工作

开放式集合识别和新奇性检测旨在寻求一种能够鉴别未知类别与已知类别之间区别的方法。

  • [9, 10]通过分别拟合每个实例和类的Weibull分布,分析了基于极值定理(EVT)的得分,但它需要大量的类[9]或每个类的大量实例[10]来应用EVT。
  • [12]通过克服一个缺点,即训练数据的数量应小于使用核技巧的特征向量的维度,训练了空投影矩阵,将同一类别的数据投影到一个唯一的点。
  • [13]提出称为dropout的正则化技术是贝叶斯的近似方法,并表明与贝叶斯神经网络相比,模型的不确定性很容易获得。
  • [8]提出具有对抗性训练的模型集合会导致较低的分类误差和衡量不确定性的方法。
  • [14]表明,温度缩放,即在训练后简单地缩放对数,可以提高未知类别的区分性能。[
  • 15]利用容易收集的无标签数据来寻找最小化经验、结构和增强风险的边界,但

我们采用了合成数据,并最小化了正数据的交叉熵和合成数据的减熵。

GANs的许多变种已经被引入。

  • [16]提出了深度卷积生成对抗网络(DCGAN),成为其他基于卷积的GAN的准则。
  • [17, 18, 19, 20, 21]以各种方式解决了GANs的不稳定性问题。
  • 最近,AnoGAN被提出来以无监督的方式检测医学成像数据的异常情况[22]。他们提出了两种类型的分数,即残余分数和鉴别分数,并将它们结合起来检测异常,然而他们依靠的是vanilla GANs。

相较于以往的研究工作而言,在本研究中我们开展的一项重要工作是基于有监督的GANs模型进行设计与实现。通过使生成器经过训练以生成假的负面数据样本,并利用这些样本对分类器进行训练调整以使其得到规范。

3.背景

3.1.GANs和半监督GANs

GANs作为一种相对较新的技术框架,在深度学习领域得到了广泛应用。它主要包含两个核心组件:判别器网络D和生成器网络G。判别器D旨在区分真实数据与虚假数据来源;生成器G则通过不断优化算法参数,在对抗训练中努力模仿真实数据分布特征。从理论上讲,GANs的工作原理可被视为最小化如下目标函数的问题:\min_{G}\max_{D} \mathbb{E}_{x\sim p_{data}(x)}[\log D(x)] + \mathbb{E}_{z\sim p_{z}(z)}[\log(1-D(G(z)))]

其中pdata代表数据分布情况,并且pz可被视为一种相当简单的先验概率模型(包括均匀分布和正态分布在内)。

研究表明,在具有类别标记的数据中进行训练能够显著提升生成模型的效果。具体而言,在有监督学习场景下,在分类器C的基础上构建模型体系比传统的仅基于判别器D的方法更为有效。对于标注数据的学习过程,则采用交叉熵损失函数进行优化;而对于无标注数据的情况,则将新样本划分为K+1个类别(其中K表示标注数据中已知的类别数目),并模仿无监督变分自编码器(vanilla GANs)的方式对分类器C和生成器G进行对抗性训练。

其中pC(y|x)表示类别C的概率;而pG(x)代表生成器G生成的数据分布;值得注意的是,在vanilla GANs中判别器D(x)与半监督GANs中判别器的行为等价于1-p_C(y=K+1|x)。

3.2 denoising feature matching 在文献[23]中首次提出了一种去噪特征匹配技术 该技术旨在训练生成器G以匹配真实数据集与生成数据集之间的统计特性 在特征匹配框架下 生成器G的目标函数是定义在两个概率分布上的距离度量

在其中ΦD(-)被定义为D的特征提取器。尽管如此,在特征匹配方面效果并不理想的原因在于它忽略了D在其特征分布中的高阶统计特性。当采用去噪自动编码器(DAE)对正面数据进行评估时,在建模D在特征空间中的分布后能够显著提高图像的质量和接受评分[23]。在去噪特征匹配中,生成器G的目标是最小化以下损失函数

其中r(-)是DAE。在vanilla GANs中,D是用传统的对抗性损失训练的。

4.方法

在监督学习的情境下,我们假设所有提供的数据及其对应的标签均为已知。具体而言,在这种有监督的学习框架下,我们将正向样本集合定义为由样本xn及其对应的标签yn组成,并记作Dpositive = { (xn, yn) }{n=1}^N ,其中yn属于Y = {1, 2, ..., K};同时将负向样本集合定义为由样本xl及其对应的标签yl组成,并记作Dnegative = { (xl, yl) }{l=1}^G ,其中yl属于Y = {K+1, ...} 。这些样本均来自同一训练数据分布pdata(x, y),并在此过程中被抽取出来进行处理。需要注意的是,在测试阶段仅使用生成的数据进行评估而不参与模型训练过程。我们的目标是基于正向数据集Dpositive训练一个分类器C,并使其能够在面对正面样本时输出正确的类别标签,并通过预测结果的不确定性来识别负类样本。为此需要对生成的数据引入一种正则化机制以确保其有效性

4.1.通过不确定性正则化的分类器 不关注如何区分真实数据和生成数据。我们的目标是使分类器C对于正面的数据表现出较低的不确定性。为了使分类器C对生成的数据施加高不确定性的要求,在其训练过程中添加熵正则化项,并利用生成的数据进行正则化处理。最后的目标函数是

其中H(pC(yjx))表示成员概率的熵值。请注意注意,在我们的分析中没有明确地区分生成的数据样本与真实数据样本之间的差异

该目标函数表明,C被设计用于预测一个给定正面样本的标签,同时旨在降低生成样本高度确定的信息含量.当生成的数据被视为负样本时,C有能力通过评估其不确定度来进行已知类别与未知类别的区分.值得注意的是,选择评估不确定性的指标完全取决于从业者的决策.替代熵,我们可以使用负对数似然来量化不确定性.

4.2.边际去噪特征匹配

将未知类别与已知类别区分开来进行建模并非明智之举。我们倾向于基于分类器对观察到的数据,在较为紧凑且有代表性的区域中构建模型。现代深度网络C可被划分为两个关键组件:用于从数据中提取特征的技术架构以及用于将这些预处理过的特征映射至具体类别的一系列判别模块。对于输入为负样本的情况而言,在这种情况下系统会以较低不确定性(即较低熵度)将其归类为已知类别中的某个类型。这表明正面样本和负面样本在 feature 空间中的分布较为接近(如图 2a所示)。如果我们能够在正面样本附近生成一些假象性 feature,并利用这些人工构造出来的 feature 来对 C 进行约束优化(通过最大化信息熵来收缩决策边界),那么我们可以预期得到比未经约束优化版本更好的检测性能。直接的方法是破坏正面样本所特有的 feature 并对其进行人工干预处理以达到上述目的效果。然而由于 C 的架构设计不允许对其 feature extractor 进行端到端式的微调训练过程这一限制导致即使如此处理后仍然无法有效地区分正反两类样本。如果能够生成一些人工构造出来的负样本并将其放置于正样本 feature 周围那么我们就有机会进一步收缩决策边界的同时还能有效地将两类 sample 区域划分开距图 2b所示

为了生成这些看似负面但虚假的数据, 我们采用了类似于文献[24]中的方法来进行研究。在这个过程中, 达尔文编码器(DAE)旨在从受损的数据中重建原始信息, 这种机制有助于恢复潜在的信息完整性。当将达氏编码器(DAE)产生的结果设为目标用于训练时, 它不仅能够重建原始结构, 更能模仿正面数据集的概率分布特性, 并在此基础上生成新的样本以增强模型的能力。然而, 我们的实验目标并非仅限于让生成器(G)产出已知类别中的样本, 而是希望其能够学习并产出未知类别而非预先定义好的类别结构。为此, 我们提出了一种新的变体——边际去噪自动编码器(MD-AE), 该模型旨在通过分析已有类别的噪声分布特性来优化去噪能力, 其核心在于通过调整超参数m来控制噪声建模的具体策略。在此基础上, 如果我们将该变体设为目标用于训练, 则会输出与已有类别高度相似但非预期的数据——这对我们后续研究而言将是干扰因素需加以警惕

请注意,在vanilla G中模仿的是已知类别的分布情况;而我们的G则模仿的是远离已知类别的分布m的情况。在此过程中,在边际去噪特征匹配这一环节中,G的目标函数为

其中ΦC(-)被视为C的特征提取器;而MDAE将其视为其自身;同时,在计算过程中,M(ΦC(G(z)))的结果被视为一个常数,如文献[24]所述,因为它是生成器网络G的目标。

其中n(-)是腐败函数,m是设置边际的超参数。

4.3.检测G对于未知类仅需生成一组假样本,在训练阶段结束后就不再参与后续过程。相比而言, 检测未知类别相对较为简便, 因为我们只需关注分类器C所依赖的任何不确定性度量(如本例中的熵)。当分类器C对输入数据x预测其归属概率时, 成员的概率熵易于计算并作为衡量模型不确定性的指标使用。通过利用验证集确定一个适当的阈值, 并评估测试集上的样本不确定性水平来识别可能属于未知类别的样本。

5.略

全部评论 (0)

还没有任何评论哟~