Advertisement

论文那些事—DECISION-BASED ADVERSARIAL ATTACKS:RELIABLE ATTACKS AGAINST BLACK-BOX MACHINE LEARNING MODELS

阅读量:

基于决定的对抗性攻击:针对Black-box机器学习模型的可靠对抗攻击(ICLR2018)

1、摘要/背景

目前用于生成对抗扰动的主要方法主要依赖于两种能力:一种是基于梯度的方法(Gradient-based attacks),另一种是利用置信度分数进行的概率估计(Score-based attacks)。然而,在大多数现实世界场景中这两种能力难以获取。在许多情况下人们不得不转向基于迁移的方法这些方法依赖于复杂的替代模型并且能够访问训练数据并实现防御在此我们强调完全依赖最终模型决策的攻击的重要性这种攻击(1)适用于现实世界的黑盒模型例如自动驾驶汽车;(2)所需知识更少且比基于迁移的方法更容易应用;(3)对于一些简单的防御策略比基于梯度或概率估计的方法更为稳健以往的研究仅针对简单模型或简单数据集进行了这类攻击

主要贡献:

我们特别关注并分析了对抗性攻击这一领域中的决策范式类别的独特地位及其在现实世界应用程序中的实际关联性。这种分类对于评估模型抗干扰能力具有重要意义。
我们首次提出了一种高效的基于决策范式的攻击策略,并将其扩展至复杂的人工智能系统架构以及多维度的数据分布环境。
研究表明,在防御蒸馏等现有防护手段面前。
我们的研究工作已在Clarifai.com这一知名平台展示出针对品牌识别与名人鉴别任务所设计的黑盒机器学习系统的有效性。

2、boundary attack-边界攻击

2.1 原理

边界攻击算法的核心机制如图1所示。该算法从一个已经被初始化为对抗样本的起点开始,在区分区分对待区域与非区分对待区域的边界线之间进行随机游走。其本质是通过采用合适的提议分布 P 来执行拒绝采样方法,在满足给定的抗sid标准 c(.) 的前提下,逐步缩小对目标图像施加的扰动幅度。

  • 从一个已有的抗 distortion 样本出发(start from an existing adversarial sample);那么如何获取初始抗 distortion 样本?
    • 然后通过随机游走的方式进行探索(perform random walk exploration);一方面确保探索得到的图像仍然是有效的抗 distortion 样本;另一方面避免与原始图像的距离过于远。

以下是伪代码:

o指代原始输入(即一张图片)

y=F(o)指代模型F ( ⋅ ) 的全部输出(即logits或probabilities)

ymax​指代预测的标签(即类别标签)

ar{o}

指代对抗扰动后的图片,

ar{o}^{k}

指代攻击算法第k kk步处理过的扰动图片

2.2 初始化

如何选择初始点——具体来说,在论文中对此问题的描述还不够清晰。在边界攻击中,则需要利用一个已经处于对抗状态下的样本作为初始化的基础。

在非目标攻击场景下,在给定输入的定义域(例如图片则属于[0,255]的空间)的最大熵概率分布中进行采样

在目标场景中,我们从被模型分类为目标类的任何样本开始。

在计算机视觉领域中,在图像空间受限于[0,255]范围内时,在此区域内采用均匀采样策略以确定初始采样点的位置。(其中不被当作对抗样本处理的图像)

2.3 Proposal distribution

算法的效率主要由提议分布 P 决定,即如何在每个步骤中选择游走方向。最佳提议分布通常依赖于被攻击的域和模型;然而,在此处测试的所有视觉相关的问题中,则是一个非常简单的提议分布在效果上表现出色。其背后的基本思路如下:在第 k 步骤中,我们旨在从满足以下约束条件的最大熵分布中提取扰动 ηk

1、扰动样本在输入域内:

2、扰动的相对大小为:

3、扰动将扰动图像与原始输入的距离减少了一个相对量 ϵ:

边界攻击主要涉及两个关键变量:总扰动的长度 δ 和朝着原始输入的步长 ϵ 。在分析边界局部几何形状的基础上,动态地进行微调这两个变量的值。这种微调方法源自Trust Region方法。

2.4 Comparison with other attacks

后面一些实验结果不贴了...........太多了

3、总结

我们还提出了该类别中首个可应用于通用机器学习算法并可处理复杂自然数据集的有效攻击:边界攻击(Boundary Attack)。其核心采用了基于拒绝采样算法结合简单的提议分布及受信任区域方法 的动态步长调节机制以引导对抗样本遵循决策边界。该方案的基本操作逻辑是从较大的初始扰动值开始逐步减小其幅值直至反转以往所有对抗攻击所遵循的行为模式。值得注意的是尽管其展现出惊人的简单性但在满足一定抗干扰标准的前提下其实现效果与基于梯度的传统计算机视觉任务相当接近

全部评论 (0)

还没有任何评论哟~