Advertisement

SKIP CONNECTIONS MATTER: ON THE TRANSFERABILITY OF ADVERSARIAL EXAMPLES GENERATED WITH RESNETS 翻译,侵删

阅读量:

Skip connections are vital: On the transferability of adversarial examples generated with ResNets.

摘要

跳跃连接是当前最前沿的深度神经网络架构中不可或缺的关键组件之一,
例如:
ResNet,
wideResNet,
DenseNet,
ResNeXt。
尽管它们在构建更为深邃且更具力量的深度神经网络方面取得了显著成效,
本研究揭示了一种令人担忧的安全隐患。
利用跳跃连接不仅能够更容易地生成高度可迁移的对抗样本,
而且特别值得注意的是,
在ResNet这类具有跳跃连接的技术架构下,
梯度能够顺畅地反向传播到跳跃连接或残差块所在的模块。
通过采用更多来自跳跃连接而非残差快梯度的方法,
结合预设衰减因子策略,
我们成功构造了一系列具有高度抗转移能力的对抗样本。
为此,
我们提出了一种新型方法:
Skip Gradient Method(SGM)
为了验证该方法的有效性,
我们进行了全面的迁移攻击实验,
针对包括:
Resnets,
DenseNets,
Inceptions,
Inceptions-ResNet,
SENet
以及经过强化训练后的鲁棒型DNNs等顶尖模型进行评估。
实验结果表明,
基于SGM构建出来的攻击样本在梯度流面上表现出显著提升后的迁移性特征,
几乎涵盖了所有测试场景。
进一步地,
SGM方法不仅支持与现有黑盒攻击技术无缝整合,
还能够在提高攻击迁移性方面提供更为显著的效果。
本研究不仅深化了对DNN架构脆弱性的认识,
还为设计更加安全可靠的深度神经网络架构提出了新的挑战方向。

1 介绍

在深度神经网络(DNNs),一个跳跃连接建立了一个快捷方式从浅层到深层,通过连接卷积块的输入直接到他的输出(也称为残差快)。虽然神经网络的不同层学习了不同等级的信息,跳跃连接可以保住保留底水平的特征,避免表现下降在添加更多层的时候。这被证明对于建立非常深的强有力的DNNs例如ResNet, WideResNet, DeseNet, ResNeXt来说非常的重要。与此同时,尽管他们高超的表现,DNNs被发现对于对抗样本(或者对抗攻击)极端的脆弱,这些是输入的样本经过有意的轻微的扰动来欺骗一个网络做出错误的于此。对于人类观察者来说,对抗样本经常是不可察觉的,并且可以在不同的模型中迁移。这引起了在DNNs在安全场景下的安全担忧,例如:人脸识别,自动驾驶,视频分析和医学诊断等。

可采用白盒攻击模式(即攻击者掌握目标模型的所有信息)以及黑盒模式(即攻击者不具备目标模型的信息)来构造对抗样本。其中白盒攻击方法如FGSM、BIM、PGD等,在黑盒设置下通常迁移效果较低仅构成对DNN模型有限威胁;而针对代理模型构建的有效性问题则尚未得到充分研究。若干改进措施被提出以增强基于代理模型的黑盒攻击策略的有效性;尽管这些改进措施效果较为有限但它们与传统的白盒攻击方法共同构成了对整个网络潜在威胁的重要组成部分;然而它们未能充分揭示神经网络架构本身所固有的抗扰动特性这一问题尚待深入探索。

在本文研究中发现,在许多顶尖DNNs中被广泛使用的跳跃链接都存在一个脆弱性问题。为了研究这一问题的影响机制,我们设计并实施了一个实验,具体是在ImageNet验证集上进行BIM攻击测试,针对ResNet-18模型的不同跳跃链接配置进行评估。通过对梯度方向传播、跳跃链接或残差块等方法进行分析,我们在图1中比较了不同配置下的攻击成功率。结果显示,与单纯使用跳跃链接相比,采用残差块作为攻击手段时的成功率显著下降,这表明原始模型中的跳链接设计存在明显的缺陷(易遭受高成功率攻击)。此外,进一步发现跳链接模型在迁移能力方面表现更为突出:例如,在黑盒场景下,当跳链接被绕过(沿绿色线路路径进行攻击)时,成功率达到52.52%,而采用残差块则提升至62.10%的成功率

图1: 左侧:最末尾三个跳跃连接层(以绿色线条标注)以及残差模块(以黑色方框标注),基于ImageNet训练的ResNet-18网络架构;右侧:通过梯度流动的方式,在结合点处构造对抗样本,在白盒与黑盒两种形式下评估其成功率。三种反向传播路径分别以不同颜色标出:绿色路径跳过了最后两个残差模块并显示出较高的成功率;红色路径贯穿全部三个残差模块却表现出最低的成功率;而蓝色路径则介于两者之间。实验结果基于5000张ImageNet验证集样本,在最大L∞扰动幅度ε=16的情况下进行评估(每个像素值范围在[0, 255]之间)。针对VGG19目标模型进行黑盒攻击测试时的表现数据

在上述观察的启发下,在这篇文章中,我们提出了一种新的方法——Skip Gradient Method(SGM)——来生成对抗样本。与传统的残差梯度方法相比,我们的方法主要依赖于跳跃连接处获得的梯度信息。为了优化性能,在实践中我们发现通过引入一个衰减因子能够有效减少来自残差块梯度的影响。研究表明,通过沿梯度方向进行调整能够显著提高对抗样本的迁移性效果。具体而言,在网络结构中跳跃连接的数量越多(即模型中跳跃连接的数量增加),其抗受untargeted攻击的能力也会相应增强。此外,在实验部分我们详细验证了这一设计原则的有效性,并展示了其在实际应用中的优越性能。

  • 我们确认了一个惊讶的属性在像ResNet神经网络之类的跳跃连接,例如:他们很容易的生成具有高迁移性的对抗样本。
  • 我们提出了Skip Gradient Method(SGM) 来构造对抗样本使用更多的来之跳跃连接的梯度。。使用耽搁衰减因子在梯度上,SGM似乎简单和具有泛化性的技术,可以被用来使用在任何已经存在的基于梯度的攻击方法。
  • 我们提供全面的迁移攻击实验,来自不同的源模型对抗10个顶尖的DNNs模型,表明了SGM可以极大的改善构造的对抗样本的迁移性。当和已知的迁移技术集合的时候,SGM改善顶尖的基准到以一个很大的优势。

2 相关工作

现有的对抗攻击能够被划分为两大类(1)白盒攻击(2)黑盒攻击。在白盒攻承中,攻承者对于目标模型的所有参数信息具有完全掌握;而在黑盒攻承中,则针对目标模型的信息是不可获取的状态。

2.1 白盒攻击

给定原始样本 x及其真实标签为 y,目标深度神经网络模型为 f。攻击的目标是旨在生成满足特定条件的对抗样本x_{adv}以使该网络产生错误预测(例如:\parallel{x_{adv} - x}\parallel_\infty > \epsilon\text{)}的同时要求生成的新样本与原始样本之间的距离不超过预先定义的最大允许偏差范围(例如:\parallel{x_{adv} - x}\parallel_\infty \leq \epsilon\text{)})。

**Fast Gradient Sign Method(FGSM)**是一种对抗训练中的重要方法。FGSM通过在梯度方向上施加一个幅度为\epsilon的扰动作用于原始图像x
$$
x_{adv} = x + \epsilon \cdot sign(\nabla{x}L(f(x), y)) \tag{1}

基本迭代方法(BIM)是FGSM的迭代版本,对于$T$步,步长为$\epsilon/T$ **Projected Gradient Descent(PGD)**. 通过微调输入样本$x$进行优化更新,在每一步迭代中使用微小的学习率参数进行调整,并将对抗样本投影到该$\epsilon$-ball内以确保投影后的样本仍位于该$\epsilon$-ball范围内。 $\prod_\epsilon(\cdot)$代表一种投影操作,在与BIM方法相比时,则指出PGD方法使得步长参数能够超过$\epsilon/T$的限制。 除了上述提到的白盒攻击外,在恶意软件分析领域还存在多种其他类型的白盒攻击方法。这些包括以下几种类型:基于稀疏性的几种攻击手段(如 Jacobian-based Saliency Map Attack(JSMA)、sparse attacks 和单像素攻击),以及基于优化策略的方法(如 Carlini 和 Wagner 的 C&W 方法是最具代表性的)、弹性网(EAD)也是一种有效的技术)。 ##### 2.2 黑盒攻击 黑盒攻击主要通过两种方式实现:一是直接攻击代理模型;二是将梯度评估结果与查询目标模型结合使用。梯度评估作为一种优化手段,在具体实现时通常采用Finite Differences(FD)或Natural Evolution Strategies(NES)等方法。需要注意的是每个方法都需要对目标模型进行大量查询操作才能完成任务。另外一种途径是利用代理模型生成攻击样本后直接应用于目标模型。白盒方法可以直接应用于代理模型,在黑盒环境下则效果不佳。为了提升黑盒攻击的效果几个迁移技术被提出用于增强其适应性。 **Momentum Iterative Boosting(MI)**. 该方法通过将动量因子整合到梯度计算中以增强模型的迁移能力:

x^{t+1}{adv} = \prod\epsilon(x^t_{adv} + \alpha \cdot sign(g^{t+1})),\quad g^{t+1} = \mu \cdot g^t + \frac{\nabla{x}L(f(x^t_{adv}, y))}{\parallel{\nabla{x}L(f(x^t_{adv}, y))}\parallel_1} \tag{3}

令${g^t}$表示第$t$次的对抗梯度向量;其中$\alpha = \epsilon / T$, 表示总迭代次数对应的步长值;令$\mu ∈ (0, 1]$为衰减因子;其中$\parallel{\cdot}\parallel_1\triangleq L₁范数。 **Diverse Input(DI)** , DI通过基于随机变换后的输入样本梯度生成对抗样本:

x^{t+1}{adv} = \prod\epsilon(x^t_{adv} + \alpha \cdot sign(\nabla{x}L(f(H(X^t_{adv}; p)), y))) \tag{4}

$H(x^t_{adv}; p)$s是随机变换的函数,对于给定的概率$p$在$x^t_{adv}$。 **Translation Invariant (TI)**. 该方法旨在规避受鲁棒性训练影响的深度神经网络(DNN),通过代理模型生成对抗样本以降低其对决策区域敏感性的程度。特别地,TI技术处理一些列原始输入的各种变换版本对应的梯度:

x^{t+1}{adv} = \prod\epsilon(x^t_{adv} + \alpha \cdot sign(W * \nabla{x}L(f(X^t_{adv}), y))) \tag{5}

$W$被定义为一个预先设定的内核。如均匀分布型、线性的或者高斯型矩阵,则其大小为$(2k+1)\times(2k+1)$(其中$k$表示最大像素数)。该内核对应的卷积操作等价于在$(2k + 1)^2$上执行梯度加权求和运算。 进一步研究表明,在干扰特征表达这一领域有其他相关研究的关注。例如: Activation Attack 是一种源自特定层级的方法,在分析特定图片样本时对目标图像进行处理以提高迁移目标模型的效果。而 Intermediate Level Attack 则是通过对已有对抗样本进行微调的方式来优化其迁移性能,在此过程中主要是在源模型预先指定的一个层级上引入扰动以提升效果。 虽然这些迁移技术表现得非常出色, 其中涉及的因素包括白盒攻击、威胁模型、代理模型以及目标模型等。 然而, 他们并未考虑到不同DNN架构的独特特性。 Li等人探讨了样本模型中跳跃连接与丢弃层的应用, 这导致了一系列具有强大防御能力的幽灵网络, 用于执行集成攻击。 在此研究中, 我们特别关注跳跃连接在梯度视角下的架构特性, 而无需构建额外的网络结构。 #### 3 提出 Skip Granent Attack 在这个部分中,我们将详细阐述跳跃连接与残差块在梯度分解中的作用.基于这一理念,我们在此基础上提出了一种名为Skip Gradient Method(SGM)的技术.通过一系列研究,进一步验证了该方法的有效性.具体而言,通过对对抗样本迁移特性的深入研究,我们得出了相关结论. ##### 3.1 跳跃连接的梯度分解 在基于ResNet架构中,一个跳跃连接通过身份映射机制绕过残差层的作用域,并使数据可以直接从浅层网络传递至深层网络。因此我们将该网络分解为若干不同深度路径的集合,并将一个跳跃连接与其相关联的残差块视为该残差块的整体结构。考虑连续三个残差块(如:每个块满足$z_{i+1} = z_i + f_{i+1}(z_i)$),在一个残差网络中从输入$z_0$传递至输出$z_3$的过程中: 按照微积分中的链式法则,在深度学习模型中计算损失函数L对于输入z₀的梯度时,则可进行如下详细分解:

\frac{\partial{L}}{\partial{z_0}} = \frac{\partial{L}}{\partial{z_3}} \cdot \left(1 + \frac{\partial{f_3}}{\partial{z_2}}\right) \cdot \left(1 + \frac{\partial{f_2}}{\partial{z_1}}\right) \cdot \left(1 + \frac{\partial{f_1}}{\partial{z_0}}\right)
$$
以此类推,在一个拥有L个残差块的网络中,则梯度传递可被分解为从第L个残差块依次传递到第(l+1)个残差块之间(其中0 ≤ l < L)。此时:

\frac{\partial{L}}{\partial{x}} = \frac{\partial{L}}{\partial{z_L}} \prod^{L-1}_{i = l}\left(\frac{\partial{f_{i+1}}}{\partial{z_i}} + 1\right) \cdot \frac{\partial{z_l}}{\partial{x}}

其中公式(8)表示了这一过程的具体数学表达。

图1证明了这个例子,一个ResNet-18网络最后3个残差块的分解(l = L - 3)。

3.2 Skip Grandient Method(SGM)

为增强多级跳跃连接的梯度贡献,在此处分阶段对梯度进行调节设计。在此过程中,在梯度分解过程中引入了调节参数λ(lambda),从而降低了来自残差模块的影响。基于公式8的设计框架,“跳跃”路径中的总传播关系可表示为:

\nabla{x}l = \frac{\partial{L}}{\partial{z_L}} \prod^{L-1}_{i = l}\left(\lambda\frac{\partial{f_{i+1}}}{\partial{z_i}} + 1\right) \frac{\partial{z_0}}{\partial{x}} \tag{9}

输出内容

SGM是一个普遍性的方法可以被在任何具有跳跃连接的网络上实现。在方向传播的过程中,SGM简单的乘上衰减参数对梯度,但他传给一个残差块的时候。因此,SGM不需要任何计算开销,非常的高效,即使在全链接的网络上例如DenseNets。 残差梯度的减少随着反向路径的累加,也就是说,底层的残差梯度比高层的残差梯度减少的更多。这是因为,相比于高层的特征,底层的特征已经被跳跃连接很好的保留了(见公式6特征分解)

3.3 跳跃连接的对抗迁移性:案例研究

为了验证跳跃连接的迁移特性, 我们进行了一个10步迭代过程的PGD攻击测试, 并与之对应的SGM版本进行了对比研究. 为了研究针对Inception-v3模型的黑盒攻击, 我们未对跳跃连接进行干预. 研究过程中, 我们利用了多个代理模型, 包括ResNet(RN)-18/34/50/101/152系列和DenseNet(DN)-121/169/201结构, 并通过这些代理模型对Inception-v3目标模型进行了攻击. 所有的代理模型均在ImageNet数据集上进行了训练. 在实验中, 我们随机选取了ImageNet验证集中5000张图片样本作为测试集, 这些图片样本在所有代理模型下均能被正确分类. 通过施加最大L_\infty范数下的无目标扰动\epsilon=16, 我们模拟了一个典型的黑盒攻击场景. PGD算法采用了\alpha = 2步长设置, 而SGM方法采用r = 0.5衰减因子

我们进行了5次攻击,在采用不同随机种子的情况下(如表1所示),列出了不同方法的成功率数据(关注迁移性能)。结果显示,在除RN18外的所有源模型均实现了至少13%的性能提升。值得注意的是,在没有SGM的情况下,在Inception-v3上的迁移性能最佳值仅为35.48%,而当使用我们的SGM方法时,在该测试中取得了显著进步,在DN201测试中将迁移性能提升了65.38%,较之前的改进高出约29%的效果差值。

表一展示了不同防御策略下的黑盒攻击成功率统计,在5次随机运行中的标准差基础上比较了基于PGD算法设计的一种防御策略及其改进版本——跳跃梯度法(SGM),这种方法适用于多种基础防御架构并针对Inception-v3这一特定深度学习框架进行了实验验证。实验结果中表现最佳的数据被用斜体突出显示

这8个模型可被理解为源自于3个不同的ResNet系列:其中RN ¹⁸与RN ³²基于传统残差块构建而成;而采用增强型残差块设计的RN ⁵⁰、RN ¹⁰¹与RN ¹₅₂则分别代表了这一系列中不同的分支;至于基于全链接架构设计而成的DN系列,则包括了DN ¹²₁、DN ¹₆₉与DN ²₀₁三个成员。值得注意的是,在同一ResNet系列内部随着其内部跳跃连接数量的不同(例如:RNArsⅢ4表现明显优于RNArsⅠ8;RNArsⅠ5₂相比RNArsⅠ0₁与RNArsⅠ5₀而言表现更为突出),所生成出来的对抗样本具备更强的迁移性特征。特别是当采用我们提出的方法来进行相应的控制时,在分析众多顶尖深度神经网络的设计理念时发现:深度网络的主要优势主要依靠于其丰富的跳跃连接配置以及高效利用的小尺寸卷积操作。

4 与现有的迁移统计进行比较

在此部分中,在分析阶段中我们进行了对比分析,在分析阶段中我们基于SGM方法构建了对抗样本,并评估了其转移性能,在ImageNet数据集上进行评估了现有对抗攻击方法针对不安全模型与安全模型的效果。

Baselines. 本研究对SGM与FGSM进行了对比分析,并与PGD及其他三个前沿的迁移攻击方法(1)动量迭代(MI)(2)多样性输入(DI)(3)变换不变性(TI)展开了深入探讨。值得注意的是,在这项研究中,TI攻击最初被设计用于针对安全模型的研究。然而,在本研究中我们将其应用于两种不同类型的模型:即针对不安全模型以及针对安全模型的测试。对于TI攻击与其他两种方法DI与MI而言,则仅限于迭代版本的应用场景。为了全面评估不同模型的安全性水平,在这项研究中我们采用了以下两种不同的迭代步长设置策略:针对不安全目标模型采用10步迭代,在安全目标模型上则采用20步迭代策略;而对于所有基于PGD的方法而言,则统一设置了\alpha=2的学习率参数以确保一致性和可比性。此外,在我们的研究框架中引入了两个不同的衰减参数组合:其中衰减参数r设定为两个值:r=0.2(步长因子为0.5)和r=0.5(步长因子为0.7)。这些参数设置将在ResNet及DeeNet源模型上分别应用于PGD、FGSM以及SGM方法的基础上进行扩展优化。”

Threat Model. 我们基于黑盒攻击源模型生成对抗样本,并将其用于攻击目标模型。目标模型与源模型架构不同(可通过名称识别),当源模型与目标模型架构相同时(相当于白盒场景),我们直接使用源模型作为攻击对象(即白盒设置)。在ImageNet验证集中随机选取5000张图片进行攻击构造实验(这些图片均被所有源模型正确分类),并以不同的随机种子重复实验过程5次。对于所有攻击方法,在最大L_\infty范数下施加扰动幅度为16像素(即\epsilon=16),其中所有像素值均位于[0, 255]范围内

Target Models. 我们探讨了两种目标模型类型(1)非安全型:基于ImageNet的传统训练架构;(2)安全型:采用抗 Distortion增强技术构建。针对非安全型目标模型,在DNN领域挑选了包括VGG19(BN)、ResNet-152(RN-152)、DenseNet-201(DN152)等7个具有代表性的网络架构。(1)针对安全型目标模型,则聚焦于通过集成对抗训练提升鲁棒性的3个前沿研究方向:包括集成3个IncV3网络版本、集成4个IncV3网络版本以及集成3个IncResV2网络版本的各种增强策略。

Source Models. 我们采用了ResNet家族中的RN-18、RN-34、RN-50、RN-101和RN-152版本以及DenseNet家族中的DN-121、DN-169和DN-201模型作为研究对象。在处理不同源模型之间的适应性问题时,在目标模型无法直接支持的情况下,我们动态调整了对抗样本的构造规模以匹配目标模型的输入维度。对于VGG19、ResNet以及DenseNet系列模型,在构建对抗样本时采用了统一的图像预处理方式:将原始图像进行裁剪并缩放至统一尺寸224x224;而对于Inception系列模型(包括Inception和Inception-ResNet),则采用了更宽广的缩放比例为299x299以适应其较大的输入需求范围。

4.1 不安全模型的迁移性

我们实现了对所有攻击手段在七个不安全系统中的迁移特性的研究,并寻找最佳方案以生成最具推广性的攻击策略,在单一源系统下针对多个目标系统展开。

单步攻击的迁移性:单步攻击的迁移性是通过单步攻击的成功率来评估的(见表2)。在这里,我们仅展示了两个源模型的结果:(1)RN-152,在所有目标模型上的平均成功率均值最高;(2)DN201,在所有目标模型上的平均成功率均值也较高。值得注意的是,在源模型与目标模型相同的情况下(即白盒攻击场景),结果显示的是白盒攻击的成功率。总体而言,在使用SGM方法生成对抗样本时(即DN201),其具有比RN-152更好的迁移性能;尤其是对于SGM方法而言,在拥有约30个可操控的跳跃连接时(相较于RN-152来说),迁移性能得到了显著提升。值得注意的是,在将RN-152迁移到VGG19/IncV3/IncV4等其他架构时(例如ResNet到VGG/Inception架构转换),SGM方法的表现优于TI方法;然而在不同架构之间转换时(例如ResNet到VGG/Inception架构转换),TI方法的优势则不复存在了

表格2展示了单步攻击迁移性的特征,在黑盒防御中采用多种策略构建威胁模式时发现,在针对两个训练良好的源模型系统进行测试时(即测试集),能够成功诱导目标模型生成至少7个不安全的状态实例(即对抗样本)。其中最优策略的结果以粗体显示以突出其效果

多步攻击的迁移性:我们系统性地研究了从8个源模型到3个具有代表性的目标模型(VGG19、SE154和IncV3)的所有攻击方法的迁移性特性。通过针对两个性能最优的源模型(ResNet和DenseNet),我们将各种攻击方法进行了系统性评估,并特别关注了多步迁移性(如10步)的表现。图2展示了所有迁移场景下的实验结果:我们提出了一种名为SGM的方法,在几乎所有情况下都优于现有技术。值得注意的是,在目标模型为浅层架构(如VGG19)时,来自浅层源模型(如RN18)的迁移性能更为突出;而当目标模型为深层架构(如SE154和IncV3)时,则来自更深源模型(如RN50/152或DN201)表现出更好的迁移能力。这一现象可能与目标与源架构间的相似度有关。此外,在攻击VGG19目标时,默认方法的成功率在ResNet源模型逐渐复杂化的过程中出现了轻微下降趋势。这种变化可能与传统残差块相较于Bottleneck残差块以及密集跳跃连接架构下不同特性有关:RN50/101/152基于Bottleneck模块设计而成,而DN121/169/201则基于密集跳跃连接构建

图2展示了基于多种攻防策略对8个源模型进行测试以评估其对抗能力。具体而言,在左边使用了VGG19架构,在中间采用了SE154方法,在右边则应用了IncV3结构

基于RN152和DN201的源模型对非安全目标模型的攻击结果如表3所示。通过实验对比发现,在多个目标模型上评估的结果表明, SGM攻击方法均展现了明显优势, 其性能表现优于现有方法。值得注意的是, 在针对DN201至SE154迁移攻击任务(该任务在ImageNet上仅达到top-5 2.251%的错误率)中, SGM方法获得了72.03%的成功率, 这一数值较MI高7%, 比DI高出10%。

表格2中展示了多步攻击的迁移率:这些方法分别基于两个特定的数据集构建了针对七个潜在目标模型的安全性测试,并对这些目标模型进行了黑盒攻击成功率为评估指标。其中表现最优的结果已用粗体标示。

基于现有技术框架

表4: 基于现有技术:在源模型DN201上对7个不安全的目标模型进行攻击以获得其攻击成功率,在实验结果中显示最优的结果并以bold标记;通过使用+号来表示相对于 baseline 的改进。

4.2 攻击鲁棒性训练模型的迁移性

在评估三个安全目标模型时(如图5所示),我们的SGM成功率与其他基准方法进行了比较。就总体性能而言,在结合特定变换设计的对抗训练模型中(如PGD、MI或DI)进行优化后,在迁移场景下的表现更为突出。其中TI展现出最佳的迁移性能;而SGM则是这些方法中的第二名。值得注意的是,在进一步结合TI的情况下(如RN152构造的攻击策略),SGM不仅能够维持原有的优势地位,在迁移场景下的整体效果也有显著提升。这一发现表明,在单独控制跳跃连接可能无法充分提升攻击的安全性时(如DN201构造的攻击策略),通过引入RN152能够显著增强现有攻击手段的效果。具体而言,在实验结果中发现:基于RN152构造出来的攻击策略相较于基于DN201的方法表现出更强的迁移能力;这与之前认为所有情况下攻击能力应呈现一致性的假设形成了鲜明对比。

表5展示了攻击安全模型迁移性的方法:通过构建基于RN152和DN201的多层次攻击框架来评估其成功率,并在经过测试的安全系统中实施三次独立测试。其中,在所有测试中表现最佳的结果已用粗体标出。

4.3 进一步的观察SGM

在当前阶段的基础上,在这一部分中我们将进行一系列额外的实验来验证我们的研究框架(SGM)的有效性,并进一步探索如何将SGM应用于基于集成的攻击以及白盒攻击场景中。

残差梯度衰减因子r的影响:我们测试了我们提出的SGM方法在不同迁移性上的表现。具体而言,在r ∈[0.1, 1.0]范围内选取不同的衰减值进行实验。其中当r = 1.0时,则表示未对残差梯度进行任何衰减处理。实验结果表明,在ImageNet验证集上随机选取了500张图片进行了攻击尝试(注:原文应为"5,随机选择"),并在图3中展示了针对VGG19、SE-ResNet-154和Inception-V3三个目标模型的攻击结果分析。观察发现,在这些目标模型下呈现出高度一致的趋势。进一步分析表明,在DenseNet源模型上适当增加残差权重的衰减强度通常能够提升迁移性能(注:原文应为"提高"),直到达到某个阈值为止。例如,在r = 0.5时效果最为显著。这是因为这种策略能够引导攻击算法更加关注底层信息的迁移特性(注:原文应为"转移特性"),然而如果忽视高层类别相关的信息,则会导致攻击效率明显下降。相比之下,在ResNet源模型下适当降低残差权重的衰减强度能够持续提升迁移性能(注:原文应为"提高"),其主要原因在于跳跃连接机制能够提供更多跨源迁移的信息(注:原文应为"路径")。因此在r ≥ 0.2时ResNets相较于DenseNet源模型需要更多的残差权重进行衰减处理以获得更好的效果。

在没有预先知道目标模型的情况下,在图3和附录C中可以看到,在源模型与目标模式的关系中,在r的选择上表现得更加显著的是其与源模式的相关性而非目标模式的相关性。即基于一个源模式而言,在这种情况下r的最佳取值通常是具有普遍性的选择:例如在图3中假设未知的目标模式是SE154(中间图片),那么攻击者可以在DN201的基础上微调r并在VGG19上实现最佳攻击效果并取得r=0.5的最佳结果。在这种情况下使用r=0.5在DN201上的微调确实能够获得最佳的攻击成功率(相对于其他的目标模式而言)。

基于集成的方法已经被证明能够通过同时攻击多个源模型来改善构造的对抗样本迁移性。我们采用了集成策略,并基于RN32、RN152以及DN201这三个不同架构构建了攻击方案。在此基础上我们选择了最优参数r:针对RN32和RN152这两个源模型我们将其用于攻击目标DN201;而对于DN201则选择其用于攻击目标RN152以获得最佳效果。表6及表7展示了不同安全级别目标模型上的迁移性成功率对比数据(与单个源模型相比)。值得注意的是DI方法表现相对平庸除了在白盒场景下针对RN152与DN201的情况之外其他方法如SGM均有显著提升效果其中TI结合SGM后取得了超越现有基准(84.8%)的新高成功率(87.65%)。值得注意的是此处我们仅使用了三个源模型(例如:RN32、RN152与DN201)而这些架构均与IncV3目标模型存在显著差异实验中还采用了六个源模型其中包括一个IncV3架构以进一步优化结果表现。通过全面分析发现跳跃连接的存在使得这种更具迁移性的攻击方案在实践中更容易实现

为了增强针对脆弱白盒攻击的抵御能力, 我们进一步证明了, 在单步白盒攻击中(特别是FGSM), SGM同样能够显著提升模型的抵御能力。值得注意的是, 在单步统计框架下, SGM与FGSM结合残差梯度衰减的方法具有相同的特性。我们通过在8个基准模型上进行实验研究发现, 白盒攻击的成功率在L_\infty扰动\epsilon = 8时表现突出(见图4a)。具体结果展示于图4a中。此外, 我们扩展了扰动幅度范围至\epsilon \in [1, 64]并观察到其效果差异(见图4b和图4c)。值得注意的是, 相较于FGSM, SGM能够在大部分情况下展现出更强的对抗强度(例如: 在ResNet和DenseNet上的应用)。然而当扰动空间扩展至更大范围时(如\epsilon \in [4, 16])情况会发生变化: 跳跃梯度在此范围内包含了更多的损失信息从而增强了可靠性(相较于残差梯度而言)。这一发现表明: 当对抗测试应用于更为复杂的网络架构时(如从RN18升级至RN152及DN系列),对抗强度可能会有所下降。这可能与较深网络所带来的损失函数陡峭性有关。

表6: 多步攻击的迁移能力对集成防御具有重要影响:基于不同方法搭建一个集成的三个源模型(如RN32、RN152和DN201)来攻击七个不安全的目标模型时,默认情况下表现最佳。

Table 7: Concerning the transferability of security models, an integrated three-source model (for example, RN32, RN152, and DN201) achieves a black-box attack success rate. The optimal result is highlighted.

5 总结

本文证实了这一令人出乎意料的特性:跳跃连接已被广泛应用于众多顶尖如ResNet的经典网络中。此外,在对抗样本生成方面此方法显得异常高效。为了进一步验证该架构体系中存在的敏感性问题 我们提出了 Skip Gradient Method (SGM) 来构建抗受扰样本 该方法相较于基于残差块梯度的方法 采用了更多来源于跳跃连接部分的信息 并通过引入梯度衰减因子来优化求解过程。我们在多个源模型与目标模型之间展开了相关测试 包括8个安全模型与3个不安全模型 经过大量实验验证 所述方法可显著提升抗受扰迁移性相较于现有技术 此外 当结合现有技术时 SGM还能进一步增强抗受扰迁移能力 达到明显优势级别 我们认为之所以能实现如此高效的抗受扰迁移能力 是因为跳跃连接暴露出了额外的基础信息 这些信息能在不同DNN架构中实现更好的共享与传播 在这项研究中 我们不仅揭示了DNN架构体系中存在的敏感性问题 同时也为DNN架构的安全性设计提供了新的思路

致谢

本研究通过承担国家重点研究开发项目"..."等国家级科研计划项目的资助开展相关工作

附录

A 通过SGM构造的对抗样本的可视化

在这个部分中,我们展示了6个干净图片与其对应的抗 adversarial 样本,并基于生成对抗网络(GAN)分别在 ResNet-152 和 DenseNet201 上构建了相应的架构(如图 5 所示)。这些展示表明生成的抗 adversarial 样本对人类来说是难以察觉的

图5展示了六张清晰度高的图片及其对应的抗 adversarial样本可视化效果。顶部行由原始图像构成,在中间行使用了ResNet-152模型生成抗 adversarial样本,在底部行则采用DenseNet架构构建图像集合。所有抗 adversarial样本均基于我们提出的方法SGM(经过10步迭代)在最大扰动值ε=16下进行生成。

B 与之前提出的结果的比较

在这个阶段中, 我们进行了实验设置对比研究, 在之前的文献与当前的研究之间探讨了几个关键区别, 并详细分析了这些差异对最终结果的影响.

表8和表9对单源攻击与纪恒攻击进行了比较分析。在所有研究工作中,默认情况下报告在Xie的研究成果更为详尽的基础上展开讨论,并将基线攻击的成功率(例如:MI和DI)与其他方法相比更为接近,在某些情况下甚至更高。这些微小差异则可能源于实验条件的影响。表10系统性地总结了不同模型架构在极限攻击中的应用情况;表11则详细列出了不同数据集下的测试图片数量、输入图片尺寸、最大L_\infty扰动幅度\epsilon、迭代次数N以及攻击步长\alpha等关键参数对比结果。值得注意的是,在图像尺寸上,默认使用的是299x299像素分辨率(如ImageNet上的常见做法),而在此研究中我们采用了更加标准的224x224像素分辨率进行实验以提高有效性

表8:现有研究中Attack Success Rate Baseline Single-Source Analysis针对多个目标模型进行了评估。

表9: existing reports indicate that the attack success rate of previous studies, relying on an ensemble-based baseline attack, among six target models. - indicates no results were reported.

表10: 采用了现有的单源以及集成型的黑盒攻击策略。“Hold-out”方法代表了主要的目标域训练集,并采用源域模型对剩余所有其他模型进行训练。具体来说,在组别设置上:第一组包含ResNet-v2-152、IncV3、incV4以及IncRes;第二组则包括这些基础架构外,并额外引入了集成增强版本:IncV3_{ens3}、IncV3_{ens4}以及IncRes_{ens3}。

表11展示了不同实验设置下,我们开展的研究工作相较于先前工作的显著提升。\该研究采用基于NeurIPS 2017的数据集进行实验验证,并成功实现了对抗样本的高效生成。\其中最大幅值的扰动作为评估指标,通过迭代优化算法实现对目标模型的有效欺骗。\其中:

  • \epsilon代表最大幅值的扰动;
  • N表示攻击迭代次数;
  • \alpha表示攻击步长。

另一个Liu的工作,81%的成功率被报道,基于优化的攻击,构造在ResNet-152对于目标VGG16,比我们的高65.52%,从ResNet-152对于VGG19.这是因为他们没有限制最大的扰动\epsilon.均方误差(RMSD)他门攻击是22.83,这表明有许多的像素被扰动草果16像素。在我们的实验中,RMSD是6.29对于PGD,对于SGM是7.71,对于Mi是12.55.这是呼是另一个原因。注意,受限的小的扰动的优点是增加了对于人类观察着的不可察觉性。(见图5)为了适当的实现,我们使用了开源的代码和预训练的模型对于我们的实验,例如:AdverTroch。对于FGSM,PGD和MI,源/目标模型来自两个github仓库,对于所有的模型,我们重新实现了DI和TI用PyTorch。

C 衰减因子r的迁移性

在当前阶段,我们致力于探讨衰减因子r在各目标模型间的迁移特性,其中RN152与DN01被选作源框架,其目标框架则反映了这些趋势,如图6所示,所有类型的黑箱攻击对抗均采用相同的r值设定,从而使得对r的选择变得相对简便.然而,真实的场景对应的目标架构尚不明确,对抗者可以通过微调该参数来影响像ResNet这样的神经网络

图6: 衰减参数的"迁移特性":通过10步SGM生成过程所实现的黑盒攻击的成功概率,在不同设置下的实验结果。该图表比较了不同目标模型的表现差异。

全部评论 (0)

还没有任何评论哟~