Boosting Adversarial Attacks with Momentum (翻译,侵删)
Boosting Adversarial Attacks with Momentum
用动量增强对抗攻击
摘要
深度神经网络对对抗样本表现出脆弱性,在这一发现背后带来了严重的安全顾虑。尽管对抗样本作为一种用于评估深度学习模型鲁棒性的工具在应用之前受到了质疑。然而,在大多数情况下这些攻击手段仅能在黑盒模型中以极低的成功率实现欺骗效果。为了突破这一局限性 我们提出了一种更为广泛的迭代算法——基于动量的方法来增强对抗攻击的效果。通过将动量项整合到攻击过程中的每一阶段 可以使更新方向更加稳定 从而生成更具迁移性的攻击样本。为了进一步提高黑盒模型的安全防护能力 我们采用了动量迭代算法对集成模型进行了针对性攻击 并验证了经过抗训练处理后的模型确实具备较强的防御能力 同时该模型也对我们的黑盒攻击呈现出易受控的特点。我们希望所提出的方法能够作为一个有效的基准 用于评估各种深度学习模型及其防御策略的鲁棒性水平 在NIPS 2017竞赛中 我们的无目标与有目标抗干扰策略均取得了优异成绩
1. 介绍
深度神经网络(DNNs)对对抗样本表现出易受攻击的特点。这些抗干扰信号通常是通过轻微扰动合法样本生成,并被附加到微小且难以察觉的程度上。这种操作会导致模型产生预期之外但不准确的结果。研究者们发现生成对抗样本能揭示模型潜在的安全缺陷,并帮助识别出潜在的风险点。此外还能有效提升相关算法的安全性,并使它们变得更加稳健。值得注意的是这种方法不仅能够检测出现有的安全漏洞还能够帮助我们更好地理解当前系统的行为模式。
对于所给模型的架构和参数的具体了解情况而言,在白盒环境下存在多种有效的生成对抗样本的方法手段。这些方法包括基于优化策略的技术如box-constrained L-BFGS算法、基于梯度的一次性攻击策略(如FGSM)以及迭代变形手段等。普遍认为一个问题较为严重的是对抗样本迁移性的问题:即在一个特定模型上构建的有效抗 Exxon,在另一个不同的但相关联的目标域上依然能够保持其有效性;这使得黑箱场景下的攻击变得可行,并对实际应用安全构成了威胁。这种迁移现象的存在源于不同模型在学习过程中形成了相似或相同的决策边界特征:即在一个特定的数据点位置上由一个特定目标域上的特定源域模型所生成的有效抗 Exxon同样能够在其他目标域上的相关源域中发挥作用
然而,在现有条件下展示出较低效率的情况下,在对抗黑箱模型时(尤其是针对那些配备了防御机制的对象),效果更为有限。例如,在集成对抗训练中能够明显提高深度神经网络鲁棒性的现有方法,在面对无法以黑箱方式进行有效攻击的情况下就显得力有未逮。这种现象主要受到在攻击能力与转移性能之间权衡的影响。值得注意的是,在基于优化与迭代生成对抗样本方面存在明显劣势(其转移性能较差),因而使得在黑箱环境下实施攻击显得力不从心。另一方面,则通过逐步迭代生成更高转移性能的对抗样本的方法虽然在白箱模型中取得了更好的效果(成功率显著高于针对黑箱环境的操作),但在白箱模型中其成功率仍然远低于针对同样目标实现的有效水平(低于针对同样目标实现的有效水平)。鉴于现实世界中实施针对黑色背景的操作所面临的巨大挑战,在此背景下Papernot团队等人开发了一种方法:通过适应性查询训练一个代理模型来完全特征化目标模型,并将这一过程转化为白色背景下的操作流程。Aiming for practicality, real-world implementations are impractical.
我们在本文中提出了一种更为广泛的版本...以增强生成对抗样本攻击成功率的目的...其中采用的是基于梯度的方法...通过利用负梯度方向上的速度积累实现对输入空间的有效扰动...旨在找到较为稳定的收敛路径并避免陷入局部最优解...我们的实验表明,在白盒与黑色防御场景下使用该方法能够显著提高对抗样本的成功率...该方法不仅减轻了在白盒攻击条件下的防御压力,并且能够在迁移性方面展现出更强的优势。
为了进一步提高抗 transferred samples 的迁移能力, 我们深入研究了几种针对集成模型的攻击方法. 如果一个抗 transferred sample能够成功欺骗多个独立模型, 那么它在其他模型上仍然表现出抗 transferred特性. 我们证明通过动量迭代攻击方法, 所生成的抗 transferred样本能够有效地欺骗基于集成抗 transferred训练后的鲁棒模型. 这一发现不仅揭示了当前技术局限, 更提出了新的安全问题, 促使我们探索构建更加鲁棒深度学习架构的方向. 为此, 我们设计并实现了三种新型防御策略作为基准测试手段来评估不同防御策略的有效性.
- 我们开发了一种新型攻击策略——动量梯度迭代法(Momentum Gradient Descent Method),该方法通过在每一次迭代过程中累计求和函数\mathbf{f}的梯度向量,在防止陷入局部最大值的同时实现了目标函数的最大下降。
- 我们探讨了几种集成策略来同时对抗多组独立模型,在保持其分类系统的高准确率的同时验证其良好的迁移能力。
- 我们首先论证了基于集成对抗训练构建出一个具备强大抗untargeted attacks能力的有效模型,并进一步分析表明该系统也对容易遭受黑盒场景下的攻击表现出明显防御特性。
2. 背景
在这一部分中阐述了相关背景信息,并评估了对抗攻击与防御的相关工作。设分类器f(x): x \in X \rightarrow y \in Y对输入x赋予标签y;而对抗攻击的目标则是寻找一个与输入x相近但被误判为其他类别的样本x^\star;值得注意的是,在这种情况下有两种特殊的对抗样本——无目标攻击样本和有目标攻击样本;对于正确分类的情况即f(x)=y, 无目标攻击者试图通过极小噪声使得f(x^\star)=y, 而有目标攻击者则试图使f(x^\star)=y^\star, 其中所选的目标标签必须不同于原有类别标记;为了保证抗干扰能力通常会限制抗干扰幅度即满足\parallel{x^\star - x}\parallel_p \leq \epsilon, 并规定p\in\{0,1,2,\infty\}
2.1. 攻击方法
现有的生成对抗样本构造方法可以被划分为三类。我们特别介绍其无目标版本,并阐述有目标版本的简洁推导过程。
基于梯度的一次性方法是一种有效的对抗样本生成技术。
\nabla_x J(x,y)代表损失函数在x处的梯度量。
fast gradient method (FGM)被视为FGSM的一种扩展形式,在L_2空间内满足约束条件\parallel{x^* - x}\parallel_2 ≤ ε
x^* = x + ε⋅\frac{∇_xJ(x,y)}{∥∇_xJ(x,y)∥₂} ag{2}
Iterative methods. 反复应用快速梯度方法多次,并以较小的步长α进行调整。在I-FGSM框架下,迭代版本的具体定义如下:
x^\star_0 = x, \quad x^\star_{t+1} = x_t + \epsilon \cdot sign(\nabla_x J(x^\star_t, y)) \tag{3}
为了生成对抗样本使其满足L∞范数的同时接近L₂范数,则可通过将生成对抗样本裁剪至与原始样本x附近的区域。或者调节参数α为ε除以迭代次数T(其中T表示迭代次数)。已被实验证明,在白盒攻击场景下,采用多步迭代的方法较单步攻击表现出更好的效果。
基于优化的方法在对抗训练中被广泛使用。通过优化实现对真实与对抗样本之间距离的有效控制。采用带约束条件的L-BFGS算法作为一种解决方案。更为复杂的实现形式如下:
因为它直接优化了对抗样本与真实样本之间的距离,并无法确保达到L_\infty(L_2)范数的距离要求,在某些情况下会低于所需阈值。基于梯度的优化方法同样未能有效应对黑盒攻击场景,类似于迭代法。
2.2. 防御方法
基于这些尝试,在现有研究中
3. 方法
在本文中, 我们提出了一种广义的方法框架, 该框架基于迭代过程中的动量计算, 被设计用于生成抗干扰样本。这些抗干扰样本适用于白盒和黑盒场景下的防御评估。通过实验结果表明, 该框架在提高防御性能的同时, 具备较高的计算效率。具体而言, 我们深入分析了如何将动量因子自然融入传统的FGSM算法, 提出了改进后的MI-FGSM方法, 并在此基础上进一步扩展了该技术至L_2范数下的有目标攻击场景。我们的实验表明, 扩展后的MI-FGSM在抗扰能力方面表现出了显著的优势, 同时保持较低的时间复杂度。
3.1. 动量迭代快速梯度符号法
动量法是一种方法论,在机器学习领域中被用来加速优化过程。它利用一个向量来跟踪损失函数的梯度变化,在每一次迭代过程中。这些历史梯度信息有助于穿越复杂的地形区域到达最低或最高点。这验证了随机梯度下降中更新过程的有效稳定性。我们将这一概念整合到生成对抗网络中取得了显著成效。
为了生成一个无目标的对抗样本x^\star,基于梯度的方法从真实样本x生成,并受限于L_\infty范数。该方法通过求解该约束优化问题来实现对抗样本的生成。
\epsilon衡量了对抗扰动的程度。FGSM通过计算真实样本梯度的符号来生成对抗样本(参考公式1)。然而在实践中该线性假设在较大扰动下并不成立因此基于FGSM生成的对抗样本往往表现出欠拟合特性限制了其攻击效果相反通过不断迭代更新的方法(如公式3所示)可以在每次步骤中沿着当前梯度方向移动从而使得对抗样本更容易陷入局部最大值区域并造成模型过度拟合这一特性使得其在不同模型间迁移的能力较弱。
我们通过将动量集成到迭代FGSM来打破困境;以确保更新方向稳定,并避免陷入局部最大值。基于此方法仍保留对抗样本的有效迁移性;当我们增加其迭代次数时,在这种情况下同时作为一个强大的白盒攻击手段(类似于改进后的FGSM)。这使得在平衡攻击能力与迁移性方面取得了更好的效果
动量快速梯度符号法详细阐述于算法1中。其中,变量 g_t 收集了前 t 次迭代过程中计算得到的所有梯度,并带有衰减系数 \mu, 具体定义于公式(6)中。随后生成的对抗样本序列 \{x^\star_t\} ,其每次迭代引入的扰动量始终沿着当前梯度符号的方向发展,并见公式(7)的具体计算方式。值得注意的是,在参数 \mu=0时, 该方法退化为无动量快速梯度符号法(I-FGSM),即每次迭代中将当前样本的目标函数关于输入 x^\star_t 的梯度 \nabla_x J(x^\star_t, y) 进行 L_1距离归一化处理(此处的比例缩放方式具有灵活性),因为我们注意到在不同的迭代阶段, 梯度值的比例大小可能存在显著差异
3.2. 攻击集成模型
在这个部分中探讨了怎样有效地攻击集成型模型。集成方法广泛应用于研究与竞赛领域中以增强鲁棒性。同样能够应用于对抗攻击的方法,在这里我们详细阐述其原理及其应用效果。当某个样本对多个model具备抗性特征时,则该样本具有捕捉内在方向的能力,并能够在一定程度上欺骗这些model;此外还可能随之迁移至其他model从而进一步提升黑盒攻击的成功率
我们提出了一种针对多个模型的攻击方法,并将这一方法命名为逻辑集成。由于算法与可能性预测之间的关系被整合进来,在这种框架下构建了一个协同作用下的集成模型。该集成不仅整合了基础组件的信息,并且强化了细节输出的能力。特别地,在集成了一个包含K个子模型的系统后,在公式(8)的基础上实现了这一目标:
L(x) = \sum^K_{k=1} w_kL_k(x) \tag{8}
变量L_k{x}由第k个模型生成其逻辑输出结果。参数权重值作为集成参数被设定为非负值且其总和等于1。在计算损失时采用softmax交叉熵损失函数的形式来衡量真实标签与预测概率之间的差异程度。
1_y表示的是变量y的一热编码形式,在本研究中我们系统地总结了基于MI-FGSM算法的设计思路,并将其应用于多模型攻击场景下;具体而言,在Algorithm 2中展示了这些models的逻辑均值计算过程
为了便于对比分析,我们引入了两个替代性的集成方案。值得注意的是,在现有研究的基础上。其预测结果可进行加权平均计算:其中输入变量为x。同样地,在损失函数方面也可以进行加权平均。即具体表达式为:对于预测阶段有p(x) = \sum^k_{i=1} w_i p_i(x);而对于损失计算则有J(x, y) = \sum^k_{i=1} w_i J_i(x, y)。
在三个研究方案中存在主要的不同之处,在综合多个模型输出的地方带来了各自独特的攻击效果。通过实验分析得出结论:逻辑1集成展现出显著的优势,并且相较于预测性集成与损失性集成,在多种不同的攻击手段以及不同类型的集成架构下表现出色。这些结论将在4.3.1节中得到详细验证。
3.3. 拓展
动量迭代法较为容易地整合到其他类型的攻击场景中。通过替代所有先前迭代中的梯度总和来代替当前梯度,并结合叠加方法扩展至不同类型的动量变种。在这里我们阐述生成对抗样本的方法,在基于L²范数攻击的基础上进行有目标策略的应用。
为了系统性地探索对抗样本,在真实样本周围设置了一个\epsilon范围。利用L2范数计算出两个点之间的距离,并确保该距离不超过\epsilon。其中,动量增强版的快速梯度迭代法(Method MI-FGM)用于更新搜索方向。
g_{t+1}的定义在公式(6),\alpha = \epsilon / T,T代表总的迭代次数。
对于定向攻击而言,在对抗样本空间中寻找能够被误判为指定类别y^\star的一例欺骗样本x^\star是必要的前提条件;其核心在于通过迭代优化算法逐步逼近最优解点。具体而言,在梯度推演过程中遵循以下累积计算梯度更新公式:
g_{t+1} = \mu \cdot g_t + \frac{J(x^\star_t, y^\star)}{\|\nabla_x J(x^\star_t, y^\star)\|_1} \tag{11}
其中\mu表示更新系数;分子部分计算目标类别与欺骗样本之间的损失;分母部分则归一化处理基于输入x在所有维度上的梯度绝对值之和。
基于目标的设计方案下使用的对抗生成算法中包含了L∞范数的具体实现方式如式(12)所示
有目标的MI-FGSM,具有L_2范数,如下:
x^\star_{t+1} = x^\star_t - \alpha \cdot \frac{g_{t+1}}{\|g_{t+1}\|_2} \tag{13}
因此,在开发了一系列创新性算法后,在多种场景中进行测试;实验结果表明这类方法被我们采用并取得了显著成效。
4. 实验
在这个部分中进行了一系列ImageNet上的实验来验证该方法的有效性。我们实现了在第5节中提出的系统的关键组件。随后,在第6节详细报告了针对单独攻击一个模型以及集体攻击的情况。在第7节介绍了该方法在网络 security领域中的应用。
4.1. 设置
我们涉及了七种不同的模型。其中四类属于传统训练模式——包括Inception v3、Inception v4、Inception Resnet v2以及Resnet v2-152。另外三类则采用了集成对抗训练技术——具体包括增强版Inception v3(Inc-v3_{ens3})、双增强版Inception v3(Inc-v3_{ens4})和增强版Inception Resnet(IncRes-v2_{ens})。为了避免混淆,默认将最后一者直接称为抗saidai训练模式。
如果模型无法对原始图片进行准确识别,则研究攻击的成功率将毫无意义。因此,在ILSVRC 2012验证集中随机选取了1000张图片,并分为1000个类别进行测试;所有被选中的图片均被模型准确识别。
在我们的实验研究中, 我们对比了自身的方法与单步梯度法及迭代法。由于优化基方法难以准确调节对抗样本与其对应的真实样本之间的距离, 因此这些方法与迭代法具有相似特征。然而这些方法与迭代法具有相似特征, 但它们无法直接与其他方法进行比较(如部分2.1所述)。为了提高分析效率与清晰度, 我们仅呈现基于L_\infty范数下的无目标攻击结果, 并将关于L_2范数及其他有目标攻击情况的数据作为补充材料。本文所得结论对于各种不同类型的攻击场景均具普遍性
4.2. 攻击单个模型
我们在表1中展示了对所考虑模型进行攻击时的攻击成功率数据。对抗样本采用FGSM、I-FGSM及MI-FGSM方法,在Inc-v3、Inc-v4、IncRes-v2及Res-152等模型中生成。其成功率为模型误分类的概率,在使用对抗样本作为输入时的最大扰动值设为ε=16(即最大扰动幅度)。所有实验中像素值限定在[0, 255]范围内,并且每轮迭代操作共计执行十次操作。其中针对I-FGSM和MI-FGSM方法采用μ=1.0(即线性衰减因子)的方式处理参数更新过程的相关问题;这部分将详细探讨相关问题的具体实现细节以及实验结果分析情况。
表 1:我们研究的 7 种模型在非目标攻击下的成功率对比(见表 1)。其中抗析样本采用 Inc-v3、Inc-v4、IncRes-v2、Res-152 等基础架构,并基于 FGSM、I-FGSM 和 MI-FGSM 方法生成对抗样本;其中 * 标记表示白盒攻击场景下的结果表现。
通过分析表格数据可以看出,在白盒模型中研究发现 MI-FGSM 算法表现优异 其成功率高达 99.9% 与 I-FGSM 相比 在白盒场景下其成功率显著提升。值得注意的是 在黑盒模型中 I-FGSM 的成功率较 FGSM 和 MI-FGSM 显著下降 引入动量机制后 MI_F_G_S_m 在黑盒攻击场景下的成功率较 FG_S_m 和 I_F_G_S_m 提升了约 2 倍 这一成果充分验证了我们提出的方法在抗 adversarial 攻击方面的有效性 我们还在图 1 中展示了两个通过 Inc_v3 生成的对抗样本
图1: 我们展示了基于Inception v3模型应用动量迭代快速梯度符号法(MI-FGSM)生成的两个抗造样本实例。其中左边列为原始图像集,在中间列为经过MI-FGSM算法迭代10步生成的抗造噪声图像部分,在右边则展示了生成后的抗造样本图像部分。同时展示了基于Inception v3模型对这些图像进行分类预测所得出的结果及其概率分布情况
值得注意的是,在对抗训练后的模型中虽然采用了某种保护机制使得黑盒攻击的成功率有所提高(例如:针对IncRes-v2_{ens}测试集的成功率为约16%),但这种方法仍然无法有效应对大部分场景下的威胁情况。
4.2.1 衰减因子\mu
在改善攻击成功率方面,衰减因子\mu起着至关重要的作用。值得注意的是,在\mu=0的情况下(即没有动量),所采用的方法将变为没有动量的简单迭代方法。因此我们探索了适合的不同衰减因子值范围。通过实验发现,在对抗Inc-v3、Inc-V4、IncRes-v2以及Res-152等模型时(具体而言),我们利用MI-FGSM算法施加扰动,并设置参数\epsilon=16及迭代次数为10次。其中\mu的变化范围是从0.0到2.0,并以粒度为0.1进行调节。实验结果表明,在黑盒场景下生成对抗样本的成功率表现出明显的单峰分布特征,在\mu=1.0附近达到峰值。进一步分析表明,在此特定条件下(即\mu=1.0),梯度更新方式被重新定义为公式(6)所描述的内容。
图2: 该对抗样本基于Inc-v3模型的成功率表现优异,并包含白盒环境下的抗性测试结果;此外还评估了其他模型如Inc-V4、IncRes-v2和Res-152(均为黑盒情况),其中参数\mu的变化范围为0.0至2.0。
4.2.2 迭代次数
在深入研究过程中,我发现迭代次数对模型的攻击效果有显著影响。在成功率上,通过对比I-FGsM与MI-FGSM两种对抗攻击方法,在Inc-v3、Inc-v4、IncRes-v3以及Res-152模型上评估结果。实验中采用了相同的超参数设置(如\epsilon = 16和\mu = 1.0),通过逐步增加迭代次数的方式,在Inception v3模型上展开攻击测试,并记录不同模型架构下对抗样本的成功率变化情况。
图3:基于Inc-v3生成对抗样本的成功率分析中包含白盒攻击Inc-v3、灰盒攻击Inc-v4、灰盒攻击IncRes-v3以及灰盒攻击Res-152四种场景。对比分析了两种方法(I-FGSM与MI-FGSM)的结果,在不同步数实验中发现值得注意的是:Inc-v3与MI-FGSM、I-FGSM之间存在显著差异。
值得注意的是,在提升迭代次数的情况下,I-FGSM攻击黑盒模型的成功率呈现出明显的下降趋势,而MI-FGSM则始终维持着较高的水平,呈现较高的稳定性。实验结果表明,基于迭代方法生成的对抗样本确实会导致目标模型出现过拟合现象,且这种现象主要集中在白盒模型层面,较少发生于不同模型之间的迁移情况。然而,引入动量机制的方法则能够有效平衡了白盒攻击与迁移性之间的关系,最终实验证明这种方法不仅具备强大的对抗性能,同时也展现出良好的泛化能力,适用于 both 白盒子 and 黑盒子场景
4.2.3 更新方向
为了探讨MI-FGSM展现出更强迁移性的原因, 我们进一步考察了I-FGSM和MI-FGSM在迭代过程中的更新方向. 通过计算两个连续扰动之间的余弦相似度, 结果显示于图4中(当攻击类型为Inc-v3)。实验结果表明, MI-FGSM在迭代过程中更新方向更为稳定, 其间的余弦相似度值显著高于I-FGSM.
图4: 当对Inc-v3模型进行攻击时,在I-FGSM和MI-FGSM两种攻击场景下,连续施加两个余弦相似度评估指标的结果计算基于1000张测试图像得出
回忆迁移性源于模型在学习过程中形成的相似决策边界,在每个数据点上。然而这些边界并非完全相同。由于深度神经网络(DNNs)架构的高度非线性特性,在某些情况下可能会形成额外的决策边界,在每个数据点上。如图4和5所示,在优化过程中可能导致模型陷入这些异常区域。另一方面 使用动量法能够获得更为稳定的更新方向 如图4所示 这种方法有助于规避这些低迁移性的抗扰区域。另一个角度来理解这种现象是 稳定的方向更新能够使L_2范数的扰动范围增大 从而增强迁移性能
4.2.4 扰动的大小
我们可以探讨对抗扰动幅度与成功攻击概率之间的关系。我们可以对Inc-v3模型进行系统性攻击测试,并采用FGSM、I-FGSM以及MI-FGSM等对抗方法进行参数探索。所有测试样本的像素值均限定在0到255之间,并分别在白盒架构的Inc-v3模型以及黑盒架构的Res-152模型上进行了性能评估。经过大量实验验证,在所有实验中我们均采用固定步长α=1进行计算,并观察到随着扰动幅度\epsilon的变化呈线性趋势递增的结果如图所示
图5: 基于Inc-v3生成的对抗样本对白色防御模型Inc-v3及黑色防御模型Res-152的成功率进行了评估。通过对比分析了FGSM、I-FGSM以及MI-FGSM方法在不同扰动幅度下的实验结果,并发现两条曲线呈现出重叠趋势。
在白盒攻击场景中采用逐步优化过程很快就能实现100%的成功率。然而,在面对较大幅值时(即随着扰动强度增大),单步攻击的成功率会显著下降。这一现象的根本原因在于,在这种情况下决策边界不恰当的前提假设不再适用。相比之下,在黑盒攻击中尽管这三个方法的表现随着干扰程度的变化呈现出线性变化趋势(即呈现出线性增长的特点),但MI-FGSM表现出更快的增长趋势:换句话说,在黑盒模型下达到所需成功率所需的最小perturbation量比白盒情况下要小得多,并且这个最小perturbation量在视觉上更为难以察觉。
4.3. 攻击一个集成的模型
在本节中, 我们呈现了一个针对集成模型的安全性测试研究。随后比较了部分3.2中介绍的三种集成方法后发现, 在对抗训练过程中所构建的模型更容易受到我们的黑盒攻击.
4.3.1 集成方法的比较
在本节中我们将注意力集中在多种攻击性增强方法的表现对比上。具体而言我们评估了四种不同的Inception变体Inc-v3 Inc-v4 IncRes-v3以及ResNet-152网络性能。在实验设置中我们选择一个已知的黑盒基准模型作为基础来进行攻击任务其余三个网络则被设计成可被攻击的目标对象采用基于梯度的信息恢复攻击FGSM I-FGSM以及多步迭代FGSM MI-FGSM算法进行测试。为了全面对比三种主要的集合策略即逻辑集合预测集合以及损失整合方法我们将每种集合策略下的性能指标进行了详细评估并记录在表2中显示数据结果表明通过合理配置参数设置ε=16并在I-FGSM和MI-FGSM算法中分别设置了迭代次数为10同时将MI-FGSM中的衰减因子μ设定为1.0各组均采用了相同的权重配置以确保公平性比较结果如表2所示
表2. 无目标对抗攻击三个集成模型的成功率。我们提出了一个白盒集成模型以及一个持续黑盒目标模型。我们对以下四种模型进行了研究:Inc-v3、Inc-v4、IncRes-v3和Res-152。在每一行,“-”表示已知的具体模型名称及其对应的生成对抗样本的集成方法(包括基于FGSM、I-FGSM、MI-FGSM以及逻辑集成);其中通过逻辑集成的方式,在各测试用例中均表现出超越现有方法的优势。
可以看出,在各种常见的攻击手段下(无论是针对白盒子还是黑盒子模型),逻辑集成始终保持着超越预测集成与损失集成的优势。经过深入分析不同场景下的表现特征后可知,在对抗性攻击任务中采用逻辑集成为一个更为科学合理的策略选择。
表2进一步显示,在利用MI-FGSM方法生成对抗样本时,其转移能力较之前方法更为突出,在黑盒场景下具有较强的鲁棒性保障。具体而言,在对集成Inc-v4、IncRes-v2与Res-152融合模型进行攻击实验时(未使用Inc-v3组件),生成的对抗样本能够有效欺骗Inc-v3模型,在测试用例中呈现出87.9%的成功率表现。值得注意的是,在常规训练策略下所构建的模型架构对于此类攻击展现出明显的易受攻击性特征。
4.3.2 攻击对抗训练的模型
为了实现对对抗训练模型的黑盒式攻击目的,在本研究中我们采用了部分4.1中介绍的七个抗转让已知的目标模型。同样地,在实验中采用了抗转让已知的目标模型作为基准用于评估黑盒攻击的效果,并对其余六个未知目标进行了白盒攻击。这些目标通过其逻辑集成到一起且权重均等的方式实现了相互干扰与协同作用。此外,在每轮迭代过程中施加了一个固定的扰动值\epsilon = 16以及衰减因子\mu = 1.0来控制生成对抗样本的质量与稳定性。基于此方法我们在FGSM、I-FGSM和MI-FGSM算法框架下分别进行了20轮迭代实验并记录了各方法下的性能指标结果如表3所示
表 3 展示了无目标对抗攻击策略的应用效果,在白盒模型和特定目标黑盒模型上进行实验的成功率数据。研究中涉及了 7 种不同版本的 Inc-v3、Inc-v4、IncRes-v2、Res-152 模型以及集成增强版本 Inc-v3_{ens3} 和 Inc-v3_{ens4} 模型(其中"-"标识特定目标黑盒模型),同时考虑了生成对抗样本在集成过程中的表现。
值得注意的是,在面对我们的攻击时,采用对抗训练策略也无法达到预期效果。值得注意的是,在针对Inc-v3_{ens4}系统时发现其存在明显漏洞,在测试集中有高达40%的成功率。基于此观察结果可知,在经过集成对抗训练的方法后,在ImageNet上进行优化得到的最佳鲁棒性模型仍然存在显著缺陷。对此表示高度关注的是我们对于基于黑盒形式的安全威胁所持怀疑态度。针对这一问题提出的解决方向是构建能够在洋酒算法框架下实现可靠深度学习模型的安全机制。
4.4 比赛
在NIPS 2017竞赛中,针对对抗攻击与防御的子类别分为三个类别:无目标抗干扰策略、有目标抗干扰方法以及防御抗干扰方案。研究者提供了来自Imagenet数据集中的5,000个兼容性样本用于评估各类别的性能。对于每一轮的抗干扰测试,在每个图像上生成一个对应的抗干扰样本,并设定其扰动幅度范围为4至16之间的数值区间(由主办方指定)。这些抗干扰样本将被应用到我们提出的防御方案中进行测试评估。通过实验结果表明,在无目标和有目标抗干扰场景下均取得了显著的优势性能表现。
针对无目标攻击方案II(Attack 2),我们成功地应用了MI-FGSM算法来进行跨模型攻击。该研究采用了基于逻辑集成的方法进行跨模型对抗样本生成与检测实验,并对各主成分模型(PC)对应的权重设定为均值值计算结果。其中针对增强型Inc-v3(Inc-v3_{adv})模型设定其权重系数为0.25
对于目标攻击3而言,在扰动幅度低于8的情况下,我们构建了两个攻击图:一个是基于Inc-v3和IncRes-v2_{ens}模型的组合(分别赋予权重值1/3和2/3),另一个则采用了40次迭代次数;而当扰动幅度高于或等于8时,则采用了更为复杂的策略:通过结合Inc-v3、IncRes-v2_{ens}、Inc-v3_{ens3}、Inc-v3_{ens4}以及Inc-v3_{adv}等模型,并分别赋予它们权重值4/11、1/11、1/11、4/11以及1/11。整个过程均采用了相同的衰减因子μ=1.0进行调整。
6. 结论
在本文中我们开发了一系列增强对抗攻击的动量迭代方法旨在提升白盒与黑盒防御机制的有效性。这些新方法在黑箱环境下表现出了显著的优势远超传统基于梯度的一次性攻击手段以及普通迭代优化策略。我们进行了大量实验来验证新方法的有效性并深入分析了其可行性的原因。为了提升对抗样本在不同场景下的泛化能力我们在此基础上提出了一个新的策略:通过集成多个防御模型并融合其权重来生成更具攻击性的样本。最终我们证明了通过集成对抗训练所得出的防御模型更容易受到我们的黑箱攻击从而暴露了一些潜在的安全漏洞需要进一步研究和改进
致谢
该研究由国家自然科学基金委员会资助(No. 61620106010, 61621136008, 61332007, 61571261 和 U^*-NSFC U^*-Program U^*-U^*)
附录
在补充材料中,我们增加了额外的实验数据。具体而言,在部分A中,我们展示了基于L2范数的无目标攻击分析;而在部分B中,则给出了具有目标攻击的结果。该方法通过引入动量机制表现出了卓越的效果。
A. 基于L_2范数的无目标攻击
我们采用了基于L_2范数的无目标攻击策略。其依据在于,在对抗样本与真实样本之间计算的距离度量上,默认采用的是L_2距离的标准方法;其计算公式如下:
N是输入x和x^\star的维度,在计算距离时基于该维度N进行操作。例如,在对抗样本中各维分量与真实样本之间的距离均为|x_i^\star - x_i| = \epsilon时,则L_2范数即为\epsilon \sqrt{N}而L_\infty范数则等于\epsilon.因此,在我们的实验设置中将L_2范数设定为16\sqrt{N}作为基准值。需要注意的是,在该网络模型中输入的参数仅为其输入空间中的维度数目
A.1. 攻击单个模型
本节中包含七个模型:Inc−v3、Inc−v4、IncRes−v2、Res−152、Inc−v3_ens_3、Inc−v3_ens_4以及IncRes−v2_ens。针对这些主要架构——Inc−v3、Inc−v4、IncRes−v2和Res−152——我们生成对抗样本,并评估所有模型的抗untargeted攻击成功率。我们对比三种对抗方法的效果:其中一种是基于公式(2)定义的FGM;另外两种分别是基于公式(10)提出的I−FGS和MI−FGS算法。并设定迭代次数为十次,在I−FGS算法中采用该策略的同时,在MI−FGS中引入衰减因子μ=1.0。
结果显示于表5中(具体内容请参阅下一页)。我们也可以看到,在白盒场景中MI-FGTM采用了与I-FGTM相似的方式对目标模型进行攻击时能够达到接近绝对的效果,在黑盒场景中则展现了明显的对抗效果对比两种FGM方法的表现均与L∞范数特性相一致地验证了基于动量机制迭代优化算法的有效性
表5展示了基于L₂范数的无目标攻击方法,在各模型上的成功率为X%。通过Inc-v3、Inc-v4、IncRes-v2以及Res-152等模型生成对抗样本时分别采用FGM、I-FGM和MI-FGM等方法进行处理。其中*标记表示白盒攻击场景下的结果。
A.2 攻击一个集成的模型
在本研究中涉及了Inc-v3、Inc-v4、IncRes-v2、Res-152、Inc-v3_{ens3}、Inc-v3_{ens4}以及IncRes_v2等七个相关模型的研究工作。我们选择其中一个模型作为基准,并运用FGM(Fast Gradient Sign Method)、I-FGM(Integral Fused Gradient Method)以及MI_FGM(Modified Integral Fused Gradient Method)等技术手段对集成中的其他六个目标模型进行对抗攻击训练。具体而言,在对I_FGM和MI_FGM进行参数设置时,默认将其迭代次数设定为20次,并将其中的衰减因子μ设定为1.0值;而对于MI_FGM和其他组件,则采用均等分配的方式设定各组件权重值
我们已在表4中进行了系统性结果展示。基于迭代策略设计的两种方法——I-FGM与MI-FGM——均可实现接近或超过100%的成功率。针对一个典型且基于集成策略设计的白盒架构,在使用MI-FGM进行攻击时仍可保持较高的成功率,并验证了生成对抗样本在不同架构间的良好迁移性能。针对经过抗训练优化后的系统来说,在使用该方法时仍可使目标系统被成功欺骗,并使其误判达到约60%的成功率以上。最终结果揭示了抗训练机制在面对特定类型黑箱攻击时的有效性
表4: 基于L₂范数实现的无目标攻击任务中, 包括一个集成白盒模型和一个预训练的目标模型名称.其中'-'-表示预训练的目标模型名称, 并与之相关的6个集成生成对抗样本与之相关的6个集成模型.
B. 有目标攻击
B.1. L_\infty范数
在对一个不可知(不可见)的目标进行攻击时(即针对具有大量可变特性的对象),相较于传统的基于可见靶标的方法(即基于特定已知特征的目标),有目标攻击更具挑战性。在训练一个大规模的数据集时(例如ImageNet数据集),由于其复杂性和多样性,在仅依靠单个模型的情况下生成具有欺骗性的对抗样本几乎是不可能的。为了应对这一挑战,在现有研究的基础上(即基于集成方法)进一步提出了一种新的实现方案——基于集成的方法来实施有目标攻击。
表6详细列出了实验结果,在类似的实验条件下(如第4.3.2节所述),我们保留了一个基准模型来进行黑盒攻击测试,并基于目标定向对抗样本对集成系统进行了评估。为了模拟真实的攻击环境(如第5节所述),我们设定扰动幅度\epsilon为48个像素单位,并采用\mu=1.0作为衰减因子,在20次迭代过程中计算得到了最终结果。然而,在MI-FGSM方法下生成的对抗样本虽然成功欺骗了白盒系统(达到99.7%的成功率),但其效果却低于基于黑盒模型的传统方法(约高10%)。这一发现提示我们需要进一步探索更加有效的抗 adversarial training 方法以解决这一问题。
表6遵循L_\infty范数,在发起对集成白盒模型及已知黑盒目标模型的一次性攻击后包含其对抗样本成功率的数据。在每一行中使用'-'符号表示该已知模型及其生成对抗样本所集成在内的其他六个相关联的目标。
B.2 L_2范数
采用基于L_2范数的目标攻击方法,在我们的实验中也研究了Inc-v3、Inc-v4、IncRes-v2、Res-152等模型。我们不仅研究了这些模型本身的性能特征,并通过FGM、I-FGM以及MI-FGM等方法对其进行了系统性评估。为了模拟真实的攻击场景,在实验中我们将最大的扰动量设定为\epsilon = 48 \sqrt{N}(其中N表示输出维度)。具体而言,在针对I-FGM和MI-FGM采用了迭代次数为20的方法,并对MI-FGSM采用了衰减因子\mu = 1.0的方式进行优化。通过表7我们可以详细报告了对抗样本在白盒集成模型和黑盒目标模型上的成功率对比情况:与传统的FGM方法相比,MI-FGM能够更加容易地欺骗白盒模型,在黑盒场景下则展现出更强的优势;然而,在对抗训练后的模型上其效果却大打折扣。
表7展示了基于L_2范数进行计算的结果,在这种情况下对一个集成白盒模型以及一个已知黑盒目标模型进行攻击,并观察其针对目标模型的成功率情况。在每一行中,“-”符号代表已知的对象名称以及与生成对抗样本集成的其他六个对象。
- Logits are the input values to softmax. ↩︎
2Code is publicly accessible via the link provided below: ....
3Source code is located at https://github.com/dongyp13/Targeted-Adversarial-Attacks. ↩︎
