Advertisement

【论文阅读】FE-DaST: Fast and effective data-free substitute training for black-box adversarial attacks

阅读量:

亮点

  1. 提出了一种基于单分支生成器的对抗框架,以更快地训练替代模型
  2. 采用信息熵损失 来刺激图像的平衡生成。
  3. FE-DaST 在 MNIST 和 CIFAR-10 数据集上优于 SOTA 基线 DaST。
  4. 在 DaST 不可用的 CIFAR-100 数据集上证明了 FE-DaST 的可行性。
  5. 与其他 SOTA 替代训练方法相比,FE-DaST 实现了最佳的攻击成功率。

摘要

深度学习模型在计算机视觉(例如图像分类)中已显示出其优势,而众所周知,它们容易受到输入图像难以察觉的扰动,这称为对抗性攻击 。最近提出了无数据替代训练 (DaST) ,这是一个基于多分支生成器的对抗框架 ,其中每个分支生成相应类别的图像以平衡合成图像,训练代理模型 ,无需任何真实图像即可进行基于传输的黑盒对抗攻击。但是,这个多分支框架过于冗余,无法快速收敛,并且仅限于少数类别的数据集。
在本文中,我们提出了一种基于单分支生成器 的更简单的对抗框架,以快速有效地训练替代模型,称为 FE-DaST。更具体地说,我们采用具有信息熵损失单分支深度卷积生成器 来刺激平衡图像的生成,促进替代模型和目标模型的相似性,进一步增强基于转移的攻击强度。
尽管它很简单,但实验结果表明,我们提出的 FE-DaST 在计算负载、代理模型和目标模型之间的相似性以及 MNIST 和 CIFAR-10 数据集上可转移对抗样本 的攻击成功率方面优于 DaST。对于无法使用 DaST 的 CIFAR-100 和 Tiny-ImageNet 数据集,与使用真实训练图像训练的预训练模型相比,我们的 FE-DaST 还可以实现具有竞争力的攻击成功率。此外,FE-DaST 的攻击性能在四个数据集上优于其他最先进的替代训练方法

引言

对抗攻击

DNN 容易受到具有精心设计的难以察觉的扰动的对抗性示例 的影响,为了评估 DNN 的脆弱性,近年来提出了许多对抗性攻击的方法。对抗性攻击根据对手的知识可以分为两类:白盒攻击黑盒攻击

白盒攻击 意味着攻击者可以完全访问目标模型,包括模型参数和模型架构。在这种设置下,攻击者可以通过梯度上升策略使损失最大化来扰乱干净的图像。

黑盒攻击 意味着攻击者只能访问目标模型的预测,这些预测要么是预测的类概率,要么是预测的标签。对手不能直接使用梯度来制作对抗性示例。

但是,在实际应用程序中,黑盒设置比白盒设置更实用且更具挑战性。

黑盒攻击

重点介绍黑盒攻击。执行黑盒攻击的一种方法通过查询目标模型 来估计梯度,然后使用这些近似梯度制作对抗示例,这称为基于分数或基于决策的方法 。这些方法不需要训练替代模型。但是,它们需要对目标模型进行大量查询 才能生成每个对抗性示例,这会花费太多的推理时间和费用。同时,它们可以通过查询限制和时间限制轻松保护。

另一种类型的黑盒攻击是基于转移的方法 ,它不需要查询来制作对抗性示例。这种方法通常在相同的训练数据上训练一个替代网络 来模仿被攻击的模型,并通过现有的白盒攻击方法用透明的替代模型制作对抗样本。由于对抗性示例具有可转移性 ,因此使用替代模型生成的对抗性示例也会降低目标模型的性能,其中性能下降的量取决于目标模型和代理模型之间的相似性。因此,必须训练一个类似于基于转移的攻击的目标模型的代理模型 。然而,从攻击者的角度来看,在一些私人任务中,例如医疗诊断,获得逼真的训练图像几乎是不可能的。

为了解决这个问题,引入了一种基于雅可比矩阵的数据集增强技术 来构建用于替代训练的合成数据集 ,同时它仍然需要少量的训练图像来初始化。

随着生成对抗网络(GAN) 的快速发展,它显示出强大的生成合成图像的能力。为了完全消除训练图像的依赖性,周 et al. (2020) 设计了一个基于多分支生成器的对抗框架 来生成用于无数据替代训练 的合成图像,名为 DaST。更具体地说,多分支生成器生成合成图像,其中每个分支生成属于其中一个类别的图像。传统GAN中的判别器被替代模型所取代 ,该模型用这些合成样本进行训练,以尽可能接近地模仿目标模型。但是,多分支架构过于冗余,无法快速融合。由于一个分支对应于其中一个类别,因此由于多个分支可能会产生大量的时间和内存成本,尤其是对于多分类任务。

在本文中,我们提出了一个基于单分支深度卷积生成模型的对抗框架 来训练替代模型 Fast。为了解决传统 GAN 中合成示例分布极其不均匀的问题,我们提出了一种信息熵损失 ,它强制生成器以大致相同的概率生成每个类别的图像。这有助于生成用于有效训练替代模型的多样化示例。我们将基于单分支生成器的对抗框架称为 FE-DaST。

相关工作

白盒攻击

自从发现深度学习模型对对抗性样本的脆弱性 以来,已经提出了许多技术来在白盒设置中生成对抗性样本。
攻击者对这种设置中被攻击的模型有完整的了解,包括模型结构和参数,因此他们可以通过梯度上升最大化损失函数 来有效地制作对抗样本。

生成对抗性示例的早期攻击方法是快速梯度符号法 (FGSM) (Goodfellow et al., 2015),它通过计算损失函数相对于输入的梯度并将每个扰动与梯度符号中的预算绑定来产生对抗性扰动。投影梯度下降 (PGD) (Madry et al., 2018) 和基本迭代方法 (BIM) (Kurakin et al., 2017) 是 FGSM 方法的两个迭代版本,旨在提高对抗样本的攻击性能。PGD 和 BIM 分别采用投影函数和剪辑函数,在原始图像的邻域内限制每次迭代后的中间对抗样本。与这些基于梯度的方法不同,Carlini 和 Wagner (2017) 将生成对抗性扰动的过程转化为带有约束的优化问题,命名为 C &W 攻击。优化的目标是最小化原始图像与受错误分类影响的对抗性示例之间的距离。

黑盒攻击

黑盒威胁模型在各种实际应用中更具实用性和挑战性。在这种情况下,攻击者无法访问威胁模型的内部结构和参数,而只能在给定输入的情况下获得受攻击模型的预测。目前的黑盒攻击可以分为两类:基于分数的攻击(梯度估计) 基于转移的攻击(替代训练)

基于分数的攻击

基于分数的攻击使用估计的梯度构建对抗样本,这些梯度是通过查询被攻击的模型来近似的。Chen et al. (2017) 提出了基于零阶优化的攻击 ,以直接估计目标模型的梯度,其中坐标梯度估计需要对输入维度的顺序进行过多的查询。为了减少查询次数,使用了随机特征分组和主成分分析策略 。这些技术的有效性也被理论意义上的可微函数的定向导数证明 Bhagoji et al. (2018)。Tu et al. (2019) 还提出了一种自适应随机梯度估计 ,以在制作对抗性示例时平衡查询计数和失真。与优化策略不同,Ilyas et al. (2018) 提出了一种自然进化策略 ,该策略是无导数的,可以高效地生成对抗性示例。尽管在提高查询效率方面存在大量工作,但最先进的攻击仍然需要数万个查询来生成每个对抗性示例。此外,可以通过查询限制轻松防御这些攻击。

基于转移的攻击

基于转移的攻击取决于对抗性示例的可转移性 ,这种类型的攻击通常在相同的训练数据上预先训练替代模型以模拟目标模型的行为,使用代理模型制作对抗性示例 ,并使用这些可转移的对抗性示例攻击目标模型。Liu et al. (2016) 对大规模数据集上的可转移对抗性示例进行了广泛的研究。他们首先训练了 5 个模型来执行图像分类任务,然后将 5 个模型中的一个视为被攻击的模型,并将其他模型视为代理模型。他们使用这些替代模型的集合为受攻击模型生成了可转移的对抗示例。但是,在某些私有应用程序(如医疗诊断)中,很难获得用于替代训练的逼真训练图像。为了解决这个问题,Papernot 等人(2017 年)通过使用基于 Jacobian 的技术从少量训练数据中增强数据集来构建一个合成数据集 。这种方法仍然需要一些训练数据。

由于 GAN 表达了很强的生成合成图像的能力(Goodfellow, Pouget-Abadie, Mirza, Xu, Warde-Farley, Ozair, Courville, Bengio, 2014, 周, Wu, Liu, Liu, Zhu, 2020)提出了一种带有 GAN 的无数据替代训练方法 ,该方法采用基于多分支生成器的对抗框架生成合成训练数据,用于学习替代模型,而无需实际训练图像。传统 GAN 中的判别器被代理模型取代。合成示例由生成器创建,并由受攻击模型标记。然后利用生成的带有软标签的示例来训练替代模型。这种方法不需要任何训练数据,但是,由于其复杂的多分支结构,它收敛缓慢,并且仅限于少数类别的数据集。因此,我们采用传统的单分支生成器来生成合成图像,以实现快速的无数据替代训练。为了避免在对抗性训练过程中出现模型崩溃,我们提出了一种信息熵损失 来平衡来自不同类别的合成图像的生成。尽管这个想法很简单,但实证证明,我们的框架在计算负载、代理模型和目标模型之间的相似性以及可转移对抗样本的攻击成功率方面比 DaST 收敛得更快,性能更好。

另一项类似的工作将标签信息编码到反卷积块 中,以迭代合成图像,并设计了标签重建损失,以确保生成图像的多样性(Wang et al., 2021)。与在生成短语中预定义统一真实标签的工作不同,我们简化了模型架构,并利用预测标签的信息熵来刺激多样化的生成图像。

方法

下图说明了我们提出的 FE-DaST 框架的基于传输的黑盒攻击的过程,该框架包含两个阶段:无数据替代训练和对抗性示例制作。无数据替代训练 旨在在缺乏真实训练图像的情况下训练一个完全可观察的替代模型。学习到的代理模型类似于目标模型,然后用于生成对抗性示例。对抗性示例制作 尝试使用经过训练的替代模型生成对抗性示例,然后使用这些可转移的对抗性示例评估目标模型的脆弱性。获得代理模型后,我们可以使用白盒方法制作对抗示例,包括 FGSM、BIM、PGD 和 C&W。因此,基于转移的黑盒攻击的关键是训练一个性能尽可能与目标模型相似的替代模型
在这里插入图片描述
根据不同的标准,基于转移的黑盒攻击 可以分为不同的类别。我们介绍了实验中调查的三个标准:攻击场景、攻击目标和制作对抗性示例的方法。
在无数据替代训练阶段,根据目标模型的输出,基于传输的黑盒攻击可以分为两类:仅概率场景和仅标签场景。在仅概率场景 中,目标模型输出不同类别的概率。攻击者可以访问目标模型的概率输出,以训练代理模型。仅标签场景 中的攻击比仅概率场景中的攻击更困难,因为目标模型仅输出给定输入的最终标签。这些输出标签揭示的有关目标模型的信息较少,这使得学习替代模型变得更加困难。
在对抗示例的制作阶段,基于转移的黑盒对抗攻击根据影响对抗示例构建的攻击目标分为非针对性攻击和针对性攻击。
一旦我们获得了一个模仿目标模型行为的代理模型,就可以利用现有的白盒攻击 来制作对抗性示例,这些示例最终用于攻击目标模型。生成对抗示例的白盒方法,包括 FGSM、BIM、PGD 和 C&W。

替代模型的目的是模拟目标模型的行为,而不是提高分类准确性。

全部评论 (0)

还没有任何评论哟~