Advertisement

论文那些事—Black-box Adversarial Attacks with Limited Queries and Information

阅读量:

Black-box Adversarial Attacks subject to few Accesses and Information Constraints(ICML2018)

1、摘要

黑盒模型是指只能获得它的输入输出,但在真实世界中,黑盒模型往往连输入输出都有一定限制,比如限制查询次数,当过度频繁访问一个模型,模型有可能自锁不允许访问,针对现实世界的黑盒模型,作者提出三个真实的威胁模型:查询量有限、部分信息设置和仅标签有限。针对这三个问题,作者提出了一种新的黑盒攻击方法。本文受自然进化策略(NES) 的启发,提出使用NES作为黑盒梯度估计技术,并使用带有估计梯度的PGD(用于白盒攻击)构造对抗样本。想看懂这篇文章可以先去看ZOO和有限差分方法

2、三种威胁模型的攻击方法

黑盒攻击面临的三个约束:

  1. Query-limited setting: 攻击者受限于分类器可访问的信息量(如时长与预算约束所示),其每次询问次数受到制约。
  2. Partial-information setting: 在部分信息设置中(如前所述),目标类被限定为top-k类别中的一个。
  3. Label-only setting : 在标签仅限于top-k类别的情况下

用于估计梯度。文中提出了一种利用搜索概率密度函数π(θ|x)的思想来实现无导数优化的方法。与传统的最大似然估计不同,NES通过在该分布下的期望来优化损失函数。这种方法显著减少了计算复杂性。

(1)查询限制

使用NES进行梯度估计的伪代码:

估计完梯度进行对抗样本的生成:

(2)部分信息设置

(3) 仅有的标签设置

首先定义对抗样本的离散分数:

然后深入研究抗干扰能力如何影响抗量化攻击的效果。

最后使用蒙特卡罗近似法估计该代理分数:

蒙特卡罗方法被称作一种概率模拟技术。其本质是利用足够多的随机采样点来估计系统的特性,并进而求解所需计算的值。

全部评论 (0)

还没有任何评论哟~