Advertisement

论文笔记: 对抗样本 CVPR2021 Enhance Transferability of Adversarial Attacks through Variance Tuning

阅读量:

目录

    • Abstract 摘要
    • 1. Introduction 引言
      • 1.1 背景
      • 1.2 引入
  • 2. 相关工作 Related Work

    • 2.1 对抗样本攻击
    • 2.2 对抗样本防御 mechanisms Adversarial Defenses
  • 3. 理论框架 Theory Framework

    • 3.1 研究动机 Research Motivation
    • 3.2 方差调节与基于梯度的攻击策略 Variance Regulation and Gradient-Based Attack Strategies
    • 3.3 不同攻击之间的关系 Relationship Between Distinct Attacks
  • 第4节 实验研究

    • 第4.1节 实验前期准备

      • 第4.2节 对单一防御机制的攻击
      • 第4.3节 通过输入变换进行的攻击
      • 第4.4节 对多组防御机制进行攻击
      • 第4.5节 攻击基于高级防御体系的目标
      • 第4.6节 参数消融实验(Parameter Erasure Experiment)
    • 5. 总结

论文作者:Xiaosen Wang Kun He
作者单位:华中科技大学计算机科学与技术学院
作者邮箱:{xiaosen,brooklet60}@hust.edu.cn
源代码:https://github.com/JHL-HUST/VT.

Abstract 摘要

作者提出了一种名为Variance Tuning Technique的方法,并通过在输入预处理阶段结合基于梯度迭代攻击方法,在多模型配置下实现了90.1%的成功率提升。该方法较现有最佳技术提升了85.1%的效果。

1. Introduction 引言

1.1 背景

近年来,对抗样本引起了广泛关注。一方面它们能够有效评估模型的易受攻击性;另一方面则有助于提升模型的安全性。基于白盒子防御者主动生成对抗样本表现出良好的效率特征;然而其泛化能力仍有待提高,尤其是在面对采用了防御机制或安全防护措施的对象系统时表现欠佳。针对这一挑战,在当前研究中主要聚焦于提升对抗样本在不同场景下的迁移能力:例如通过引入加速梯度方法如动量法(Momentum)和Nesterov加速梯度法等技术;并采用随机缩放、填充、平移、比例调整以及混合变换等多种技术对输入进行预处理以增强其泛化能力。然而在白盒子场景下进行的有效迁移仍远低于基于黑盒子场景下的迁移效果

1.2 引入

该研究团队开发了一种创新性策略——VarianceTuning。与现有基于梯度的方法相比,在处理当前梯度时采用了基于附近过去数据点的改进方案。其核心理念是通过逐步降低调整幅度来稳定优化过程,并确保优化方向更加稳定,并且能够跳出局部最优解的困扰。

  1. 符号定义
符号 含义
x 原始图片
y 图片对应的标签
J(x,y;\theta) 分类器的损失函数
x^{adv} 对抗样本
\cdot _p p-范数距离

2.1 对抗样本攻击

  1. 对抗样本攻击涵盖梯度导向型的攻击方法(gradient-based attacks)依赖优化算法的攻击手段(optimization-based attacks) ,以及分数评估型的威胁(score-based threats)决策驱动型的进攻手段(decision-based attacks)*。
  2. 聚焦于增强攻击迁移性能力的研究者们,则介绍了两大类迁移攻击策略:
  • 利用梯度的方法(Gradient-based Methods)通过高级的梯度计算来增强迁移能力。如:

  • Fast Gradient Sign Method (FGSM)
    x^{adv}=x+\epsilon \cdot sign(\nabla_x J(x,y;\theta))

  • Iterative Fast Gradient Sign Method (I-FGSM)
    下一个对抗样本 x_{t+1}^{\text{ adv }} 被计算为当前对抗样本 x_t^{\text{ adv }} 加上学习率 \alpha 乘以目标函数关于当前对抗样本的梯度方向的单位向量:

x_{t+1}^{\text{ adv }} = x_t^{\text{ adv }} + \alpha \cdot sign\left( \nabla_{x_t^{\text{ adv }}} J\left( x_t^{\text{ adv }}, y; \theta \right) \right)

初始化时令初始对抗样本 x_0^{\text{ adv }} 等于原始输入 x

复制代码
* Momentum Iterative Fast Gradient Sign Method (MI-FGSM)  

g_{t+1} = \mu \cdot_t + \frac{ \nabla_{x_t^{adv}} J(x_t^{adv},y;\theta)}{||\nabla_{x_t^{adv}} J(x_t^{adv},y;\theta)||_1} \\ x_{t+1}^{adv}=x_t^{adv} + \alpha \cdot sign(g_{t+1}) \$ where ; g_0=0 ; and ; \mu ; is ; the ; decay ; factor$

复制代码
* Nesterov Iterative Fast Gradient Sign Method (NI-FGSM)
  • 输入变换(Input Transformations):
  • 多变输入法(DIM): 通过随机变化大小和填充输入图片
  • 平移不变方法(TIM): 通过输入一组图片来计算梯度. 为了减少梯度计算的需求, Dong等人在局部移动图像, 并通过将非转换图像(untouched images)的梯度与核矩阵进行卷积来近似计算.
  • 尺度不变方法(SIM): 通过对一张图片进行2^{-i}倍缩放, 生成一组缩放后的图, 并对其求导(i为超参数)

2.2 对抗样本防御 Adversarial Defenses

对抗训练(adversarial training) 是一种防御机制——其通过将对抗样本融入训练数据的方式,在一定程度上增强模型对对抗样本的鲁棒性。然而该方法的主要缺点在于计算开销较大,并且难以有效扩展至大规模数据集以及复杂架构的神经网络。

  • Guo等人[9] 在将数据输入到模型前,对于输入进行了一系列的图像变换 ,用以消除对抗扰动的影响。
  • Xie等人[34] 对输入进行了随机调整大小和填充(random resizing and padding R &P) 来缓和对抗扰动的影响。
  • Liao等人[17] 提出训练一个高级表示降噪器( high-level representation denoiser HGD 来净化输入图像。
  • Xu等人[36] 提出两种特征压缩方法: bit reduction(Bit-Red) 和 spatial smoothing ,用以检测对抗样本。
  • 特征提取(Feature distillation FD)[20] 是防御对抗样本的一种基于JPEG的防御压缩框架。
  • ComDefend[12] 是一种防御对抗样本的端到端的图像压缩模型。
  • Cohen等人[5] 采用随机平滑(randomized smoothing RS) 来训练可靠的ImageNet 分类器。
  • Nasser 等人设计了一个神经表示净化器(neural representation purifier NRP) 模型 ,该模型基于自动获取监督(automatically derived supervision)来净化对抗样本。
  • Lin等人[18]融合了DIM,TIM,SIM等方法——Composite Transformation Method(CTM),是当下最强的基于迁移(transfer-based)的黑盒攻击方法。

3. 方法论 Methdology

3.1 动机 Motivation

给定目标分类器f和原始图片x, 对抗样本攻击寻找对抗样本满足:
f(x;\theta)\, \ne \, f(x^{adv}; \, \theta) \quad s.t. \quad \parallel x-x^{adv} \parallel \, < \epsilon
对于白盒攻击,将其看做一个优化问题——即在x周围寻找一个样本,使之能最大化目标分类器的损失函数:
x^{adv}\, = \, argmax_{\parallel x' - x \parallel_p \, < \, \epsilon} \, \, J(x',y;\theta)
Lin等人[18]将对抗样本生成过程类比为标准神经网络的训练过程,即输入图像 x作为参数被训练,目标模型最为训练集。由此看,对抗样本的迁移性可以等价于正常训练模型的泛化能力。因而,已有的一些方法聚焦于更好的优化算法(如MI-FGSM, NI-FGSM),或数据增强(整合多种模型进行攻击,或输入变换)。
作者将基于梯度迭代的对抗攻击算法看作一个随机梯度下降(SGD)的优化过程。作者指出SGD由于随机性致使方差较大,进而导致了慢收敛。对此,已经有多种方差降低技术(variance reduction)如SAG(stochastic average gradient), SDCA(stochastic dual coordinate ascent), SVRG(stochastic variance reduced gradient),此外, Nesterov’s accelerated gradient 可以加速收敛,提高攻击迁移性。

作者所采用的方法为variance tuning与其主要区别在于与其他基于方差缩减的SGD方法(如SGDVRMS)相比的主要差异。

  • variance tuning专注于生成高转移性的对抗样本。
  • 而SGAVRMS则旨在通过数据驱动的方法加速收敛。
  • 该方法具备更强的通用性,并显著地提升MI-FGSM和NI-FGSM算法的效果。

3.2 Variance Tuning Gradient-based Attacks

常见的基于梯度迭代的方法(如I-FGSM)在每次迭代过程中通过符号方向搜索对抗样本的过程中存在一定的局限性

算法

梯度变化量(Gradient Variance)的定义

3.3 各种攻击之前的关系

各种攻击的关系

使用了variance tuning方法的攻击,在方法名前面加入了"V",如VMI-FGSM。

  • 当β等于零时,VMI-FGSM和VNI-FGSM通过演变为MI-FGSM和NI- F G SM。
  • 若衰减因子μ等于零,则MI- F G SM和NI- F G SM 演变为I- F G SM。
  • 当迭代次数设定为一 时 , I - F G SM 演 变 为 l G SM。

4. 实验

4.1 实验准备

  • 数据集 :从ILSVRC2012验证集中选取了来自1000个不同类别的共1000张图片作为研究基础。
    • 模型 :基于Inception-V3架构的模型包括Inc-v3、Inc-v4以及经过抗受容训练优化的Inc-Resnet-v2(IncRes-v2)和Res-101网络(Resnet-v2-101)。此外,在该研究中还集成并测试了三个先进的防御机制:HGD、R&P、NIPS-r3等。
    • 基准(Baselines) :作者通过MI-FGSM与NI-FGSM方法构建了初始防御框架,并结合多种输入转换技术(包括DIM、TIM、SIM与CTM),提出了VM(N)I-DI-FGSM等新型防御策略。
    • 超参 :该研究设定的最大扰动幅度设为ε=16,在迭代次数T=10的基础上计算出每次迭代步长α=1.6。其中对于MI-FGSM与NI-FGSM方法其衰减因子设置为μ=1.0;而对于DIM变换概率设定为P=0.5;TIM采用7×7高斯核;SIM则设置图像采样数量Nim=5;而本研究则进一步优化设置了N=20及β=1.5参数。

4.2 攻击一个模型

在这里插入图片描述

4.3 带有输入变换的攻击

在这里插入图片描述

4.4 攻击一组模型

在这里插入图片描述

4.5 攻击高级防御模型(Attack advanced defense models)

在这里插入图片描述

4.6 超参消融实验

对于近邻范围的上限β, β=3/2时施加于正常训练模型的攻击行为可使迁移性能达到顶峰。

在这里插入图片描述

5. 总结

Variance tuning 能明显增强现有攻击方法(例如 MI-FGSM 和 NI-FGSM 等)的迁移性。它适用于所有基于梯度的迭代攻击。

全部评论 (0)

还没有任何评论哟~