Intriguing properties of neural networks——L-BFGS attack
该领域于2014年发表的重要论文揭示了神经网络具有引人注目的特性,在随后的研究中由此引发了对抗性样本这一现象的关注热潮。然而,在此之前对抗性样本的研究已有先河,在那个阶段这项工作并未获得足够的关注与重视。其中最原始的一篇开创性文献正是这项工作中的基石成果之一,在该文献中研究人员聚焦于解决垃圾邮件分类问题并取得了显著成效
Ntalvi et al., presented the concept of adversarial classification at the Int'l Conf.: Knowledge Discovery and Data Mining in 2004.
然而,在研究领域中最近的研究成果为我们提供了良好的参考价值。对于想深入了解对抗样本与对抗攻击原理的同学来说,深入学习基础概念是非常必要的。废话少说، 直接进入模型介绍:
未被修改的原始样本x属于n维空间中的一点,在经过某种变换操作后得到新的点x^{*}。这些变换操作的设计目标是使分类器对新旧两个版本都具有相同的判别结果。具体而言,在这一过程中我们采用了目标函数L=\|x - x^*\|^2_2作为衡量两种版本之间差异程度的标准指标,在这一过程中我们同时满足约束条件x^{*} \in [0, 1]^n$旨在确保修改后样本的空间有效性。
该优化问题中的C(x^{*})=l表明该问题具有一定的难度难以直接求解因此为了找到一个可行的解决方案我们转而寻求一个较为温和的替代方案即解决以下约束优化问题:
\text{minimize}\ c \cdot ||x - x^{*}||_2^2 + \mathcal{L}_F(x^{*}, l) \\ \text{(2)}\quad\text{subject to}\ x^{*} \in [0, 1]^n
其中Loss_{F}代表受攻击分类器的损失函数,在这种情况下优化问题(1)与(2)等价(然而,在神经网络的实际应用中这种情况基本不存在)。通常我们采用的是交叉熵损失函数,在这种情况下定义为Loss_{F}(x^{*},l)=-log(p_l),其中p_l是分类器认为样本x^{*}属于类别l的概率值
惩罚系数c通过调节||x-x^{*}||_2^2的大小来实现对目标函数的影响程度,在本研究中我们采用L-BFGS算法对优化问题(2)进行求解,并要求在满足约束条件C(x^{*})=l的前提下使得$||x−x∗||²最小化”。
