【论文阅读】Substitute Model Generation for Black-Box Adversarial Attack Based on Knowledge Distillation
摘要
虽然深度卷积神经网络(CNN)在多数计算机视觉任务中表现出色,在遭受对抗性攻击干扰时其分类机制显得极为脆弱。在此文中我们提出了一种新的算法:通过应用知识蒸馏技术来生成一个适用于黑盒环境下的替代CNN模型。该算法通过从多个 teacher 模型中提取关键特征并构建一个精简的学生架构,在模仿目标黑盒模型的同时显著降低了计算开销。为了验证该方法的有效性我们进行了系统性的实验研究:基于我们在 ResNet18 和 DenseNet121 等基准网络上的实验结果表明,在采用基于知识蒸馏构建的替代架构进行相关攻击测试时,默认的成功率较之前提升了约 20%
引言
深度卷积神经网络(CNN)在分类、检测和分割等计算机视觉任务中表现出色然而其性能往往容易受到由人类难以察觉的小幅扰动影响近年来研究者们开发了多种白盒攻击策略包括FGSM[3] DeepFool[4]以及C&W[5]和JSMA[6].这些方法通常假设目标模型是可访问的与此同时研究人员也致力于研究无需访问目标模型内部参数的黑盒攻击策略以实现更为高效的对抗样本生成
常见的黑盒攻击方法主要包括基于查询([8])和基于传输([9])两类。其中基于查询的方法依赖于获取目标模型的query权限,在典型的黑盒场景中难以实现这一前提条件。相反地,基于传输的方法能够在无需访问目标模型query权限的情况下完成攻击任务。这种方法通过将原始的黑盒攻击问题转化为对辅助模型的问题进行求解,并将白盒攻击问题也转移到辅助模型上加以解决。因此,在这种情况下辅助模型与目标模型之间的一致性具有决定性作用,在很大程度上决定了这种转移攻击的成功率(ASR)。
在本文中,我们采用了知识蒸馏技术[10]来训练并生成一个替代系统 ,该系统被认为具有良好的攻击可转移性和泛化性。我们采用了若干个最先进的CNN架构作为教师网络来促进知识提取,并将所学的学生网络用作被攻击的对象[11]。在分类任务中对我们的方法进行了评估后发现所生成的替代系统能够有效地逼近黑盒系统的决策边界。由于在应用我们的算法后显著提升了ASR性能
总之,我们在本文中做出了以下贡献:
据可靠消息源指出, 我们首先采用了知识蒸馏技术, 在针对恶意系统行为分析的研究中, 构建了替代模型, 目标是实现对象分类任务. 实验证明了这一技术方案的有效性, 显著提升了ASR性能水平.
通过实证研究发现,在对抗转移攻击方法下,模型架构规模与参数数量呈负相关关系。具有大量参数的复杂架构比简单的结构更容易遭受攻击。
相关工作
对抗性样本 通常包含两种类型 [6]:靶向样本和非靶向样本。
基于传输机制的黑盒攻击建立在以下假设基础之上:即由同一 CNN 模型生成的对抗性样本可能会影响其他模型的行为。具体而言,在生成近似于黑盒模型的替代架构方面,应采用有效的训练策略。而白盒攻击方法常被用来针对这种替代架构来生成对抗样本;这可能进一步干扰其他黑盒模型的分类性能。
基于迁移策略的攻击手段主要依赖于结合快速梯度符号法3等CNN模型的特征梯度,并融合迭代快速梯度符号法12以及动量迭代快速梯度符号法13等衍生模型的技术路径来实现高效的对抗训练机制。
方法
所提出的算法架构通过一组高性能教师模型提取出轻量级的学生模型,并同时利用基于学生模型生成的对抗样本针对黑盒目标展开白盒攻击。

参考链接
Model Replacement Process for Generating Adversarial Attacks in a Black-Box Setting Based on Knowledge Distillation Technique
