EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES 论文笔记
EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES 论文笔记
解释和利用对抗例子对于构建鲁棒机器学习模型至关重要。对抗例子可以通过利用模型对小扰动敏感性来生成。
摘要
包括神经网络在内的多种机器学习模型都容易遭受攻击而导致误判。其中所谓的对抗样本是指那些通过特意施加一些微小且恶意的干扰使系统在高置信度下完成错误分类的数据实例。此前的研究普遍认为这一现象源于模型非线性的特性以及过度拟合的结果然而本研究则认为神经网络对抗干扰易感性的本质成因在于他们在高维空间中表现出线性的特性这一最具吸引力的现象表明这些模型不仅在特定架构下表现优异而且在不同数据集上展现出令人瞩目的泛化能力而本研究则是首次对此现象提供了系统的解释并获得了新的定量结果支持此外本研究还提出了一种简便且高效的抗 adversarial 样本生成方法这种新方法可被用来构建抗 adversarial 训练数据集从而有效降低 MNIST 数据集上的测试误差
简介
抗干扰性问题:故意向输入添加轻微的人为干扰(如噪声或误导信息),可以使机器学习模型以高度自信地完成特定任务(如错误分类目标对象)。这一现象表明,在多种不同的系统架构下进行训练所得出的结果可能存在显著差异,并且同一抗干扰策略可能无法适用于所有场景。这种现象凸显出当前机器学习算法在抗干扰方面的不足。
这些现象的原因尚不明朗;有人推测其成因可能与深度神经网络的高度非线性特性有关,并可能导致模型均值化效果不佳与监督学习中的正则化措施不足相互结合。然而本研究反驳了这一观点;研究表明,在高维空间中存在某种特定性质能够有效生成对抗样本;基于此我们提出了一种高效的方法用于生成对抗样本及其对抗训练过程;此外该方法相比传统Dropout策略能够提供更好的正则化效果;而普遍采用的正则化策略虽然在一定程度上有助于提高抗 adversarial attacks的能力但无法显著改善模型的整体抗 adversarial attacks性能;进一步研究表明通过将模型转化为非线性家族(如RBF网络)可以实现对该猜想的有效反驳
本文探讨了一种权衡取舍:是选择构建简单易学的线性模型还是复杂非线性的深度学习架构来抵御对抗样本带来的挑战?从长远的角度来看,在设计更加强大的优化方法来提升非线性架构的能力时能够避免这一局限性。
相关工作
研究团队在论文 Intriguing properties of neural networks 中详细报道了神经网络的独特特性,并深入探讨了其潜在的应用前景
- Bounded optimization framework L-BFGS 可以高效地发现 adversarial samples。
在一些数据集中, adversarial samples与原始样本高度相似, 以至于人眼几乎无法察觉它们之间的差异。
在许多情况下, 单个 adversarial sample能够误导基于不同架构和不同训练数据集的模型产生不同的预测结果。
即使是最简单的 softmax regression 模型也容易受到 adversarial examples 的影响。
通过使用 adversarial samples进行训练有助于提升模型的正则化能力, 然而这种方法需要在一个内循环中进行约束优化, 其计算成本极高, 在实际应用中难以实现。
这些性质揭示了这样一个事实:尽管某些分类模型表现出在测试集上的卓越性能,并且能够准确地预测类别标签,在本质上它们却未能真正理解和掌握驱动分类决策的关键内在概念。与此相反的是这类算法往往像一个 [Potemkin village] 这样的表象良好而实则虚幻的现象,在真实世界的数据分布中表现良好;然而,在面对罕见数据时就会暴露其明显的局限性并产生不可靠的结果。这种令人失望的现象正反映了当前计算机视觉领域主流方法——基于 CNN 的特征空间使用欧氏距离近似感知距离所带来的潜在缺陷;具体而言即当两个图像之间的感知距离很小却属于完全不同的类别时这种近似方式显然存在明显的问题。然而正是这种缺陷恰当地为我们提供了一个修复现有问题的有效途径
对抗样本的线性解释
由于输入特征(input feature)具有精度限制,在图像处理中通常情况下每个像素占用8位数据表示),因此这些低于1/255的信息将无法被捕捉到。在这种情况下,在满足以下两个条件时:
其一是在分类器训练过程中应用的小幅扰动\eta
其二是该扰动的最大范数\|\eta\|_{∞}
均小于其输入特征所具有的精度,
则分类器就无法辨别这两个样本属于不同的类别。由此可见,在能够有效区分各类别的分类器中,
若在能够区分不同类别的前提下,
只有当满足\|\eta\|_{∞}< \epsilon_0
时,
分类器就不会将其误判为同一类别中的成员
深入分析参数向量 w 与抗arial样本 \tilde{x} 的内积(inner product):
w^\top \tilde{x} = w^\top (x + \eta) = w^\top x + w^\top \eta
抗arial干扰使得激活值增加了 w^\top \eta。研究表明通过最大范数约束(maxnorm constraint)将扰动量设为 \eta = \operatorname{sign}(\boldsymbol{w}) 可以最大化该内积项。假设参数向量 w 具有n维且各分量均值为m,则相应的激活值增量将为\epsilon mn。值得注意的是,在这种情况下虽然\|\eta\|_{\infty}不会随着维度变化而变化;但由\eta所引起激活值的增量\epsilon mn会随着维度n线性增长。因此,在高维空间中即使是一些简单的线性模型也可能存在抗arial易损性问题。
非线性模型的线性扰动
我们认识到神经网络的线性特性限制了其对抗样本抗扰能力,并揭示了利用该特性生成高效抗扰手段的方法,即Fast Gradient Sign Method (FGSM)。

我们设定 θ 为模型参数,并令 x 代表模型输入变量。y 为模型输出的目标标签值,在这种情况下我们被定义为训练神经网络的损失函数 J(θ,x,y)。针对特定参数设置 θ 的情况而言,FGSM 方法通过线性化处理损失函数以获得保证无穷范数限制的最佳扰动值 ||η||∞ < ε。这种最佳扰动的具体计算可以通过反向传播算法有效地获取梯度信息进而确定其数值方向。其中具体扰动值由以下公式给出:其中具体扰动值由以下公式给出:η = ε sign(∇x J(θ, x, y))。实验结果表明这一简单的对抗样本生成算法确实能够产生有效的对抗样本实例从而验证了作者所提出的假设即认为这些对抗样本的存在是由模型线性特性所导致的现象。此外该方法也可以作为一种加速对抗训练过程的有效手段使用
线性模型与权重衰减的对抗训练
通过将FGSM方法应用于逻辑回归模型, 分析如何在简单的设置中构建抗受扰动样本.

如果我们采用了单一模型来进行标签分类任务P(y=1)=\sigma\left(\boldsymbol{w}^{\top} \boldsymbol{x}+b\right), 其中y \in \{-1,1\}, 使用梯度下降方法进行损失函数优化; 其中\zeta(z)为softplus函数\zeta(z)=log(1+e^z).
利用该模型中的 FGSM 方法进行扰动调整时,默认设置下的最大扰动量 \eta 为:
此外,
\boldsymbol{w}^{\top} \operatorname{sign}(\boldsymbol{w})=\|\boldsymbol{w}\|_{1}
对抗训练的目标则是最小化以下损失函数:
E_{x, y \sim p_{\text { data}}} \zeta\left(-y\left(w^{\top} \tilde{x}+b\right)\right) = E_{x, y \sim p_{\text { data }}} \zeta\left(y\left(\epsilon-\operatorname{sign}(w)| | w| |_{1}-w^{\top} x-b\right)\right)
值得注意的是,在对抗训练过程中,并非直接添加 L^1 正则项到损失函数中进行求解(即不采用加法),而是通过减法的方式引入 L^1 惩罚项以增强鲁棒性。具体而言,在模型具有足够高的置信度学习到饱和激活函数 \zeta 的情况下,则该惩罚项最终会消失。然而,在欠拟合的情形下,则可能导致更加严重的欠拟合现象出现。
深度网络的对抗训练
人们通常误以为深度学习的方法更容易受到对抗攻击,但是实际上跟浅层线性模型相比,深度网络至少可以在训练网络过程中抵御对抗扰动攻击。因为只有深度学习有能力去拟合一个非线性模型,而这是浅层模型所无法处理的。The universal approximator theorem 表明,只要隐藏层拥有足够多的的神经元,具有至少一个隐藏层的神经网络可以表示任意精度的任何函数,因此深度学习能够学习到一个函数能够抵御对抗攻击而其他浅层模型不行。浅层模型不能做到说在不同输入给出不同输出的同时还要给临近的输入得到相同的输出。当然了,也没有理论证明算法是否能发现一个能够完全符合我们期望的函数,就像标准的有监督训练并不能保证能够学习到能够抵御对抗样本的函数,这个过程需要显式的在训练过程体现。
对抗样本的生成与其他数据扩充方案存在显著差异。一般而言,在现有研究中主要采用特定的技术手段进行数据增强操作。例如,在测试集上预期发生但并未实际出现的转换方式就属于此类方法的一种延伸应用。在这种情况下,在前沿基准测试中引入 dropout 层并不能显著提升模型性能。这种现象的原因在于基于 L-BFGS 的对抗性例子生成过程具有较高的计算成本,在大规模实验环境中难以得到广泛应用。
该文提出了一种基于 FGSM 的抗受训练方法。其目标函数定义如下:
\tilde{J}(\theta,x,y)=\alpha J(\theta,x,y)+(1-\alpha)J(\theta,x+\epsilon sign(\nabla{x}J(\theta,x,y))
其中,在本研究中采用的 \alpha 值设定为 0.5。这种抗受训练方法表明,在训练过程中会持续更新抗受样本以增强模型鲁棒性。
然而作者指出,在训练集上进行对抗训练时的错误率(即error rate)未曾突破0%这一阈值,并主要通过以下两个途径实现解决方案。
- 扩大模型规模时, 采用1600个unit替代原有的240个unit
- 在对抗训练过程中, 在验证集上的错误率会逐渐趋于稳定; 然而尽管验证集的错误率较低, 在抗ago验证集上的error仍然显著
研究表明,在未实施抗析训练的情况下
该过程可以被视为在数据受到抗干扰时最小化最坏情况下的错误率其意义在于一次抗争博弈或是通过引入区间内U(-\epsilon,\epsilon)噪声样本后损失上界范围内的最小化优化结果。此外它也可以视为一种主动学习形式即在此框架下模型能够在新位置主动寻求标注并将人工标注者替换成基于启发式策略的自动标注者以实现更高效的标注效率提升
对抗样本泛化原因
已有大量研究发现对抗样本具有Transferability特征。具体而言,在同一训练模型中生成的对抗样本往往能够有效transfer到其他不同结构的模型中进行识别。值得注意的是,在不同训练策略下建立的模型对同一对抗样本的表现却表现出显著差异!进一步地,在现有理论假设下无法解释为何具备无限泛化能力的非线性模型会采用一致的方式标记数据分布点。
在本文提出的线性解释下,作者认为对抗样本在广泛的子空间存在。

上图显示,在不同 \epsilon 的情况下(阶段),我们能够看到FGSM能够在该一维连续子空间中生成抗受攻击样本,并不局限于某个特定区域。这有助于理解为何抗受攻击样本数量众多,并解释了抗受攻击样本转移性的存在
为了阐明为何不同类型的分类器会将抗受干扰样本归类到同一类别中,请研究者假设目前所采用的方法在训练神经网络时与基于同一训练数据集构建的线性分类器具有相似的学习过程。由于机器学习算法具备较强的泛化能力,在对不同子集进行训练时,这些线性分类器能够大致获得相同的分类权重。而底层稳定不变的特征权重分布反过来又会导致抗受干扰样本中表现出类似的稳定特性。
对抗样本存在性的其他假设
作者通过实验及分析,反驳了其他两种对抗样本存在性的假设。
假设1:生成式训练可以在训练过程中设置额外的约束条件,使该模型学会区分真实数据与虚假数据之间的差异,并对于真实数据表现出更高的可信度。
研究表明,在某些情况下部分生成训练无法满足预期要求。然而这并不意味着就完全否定存在其他类型的生成模型具备防御能力。实际上确实如此 单独进行生成训练并非充分的安全保障。
假设2:对抗样本存在于单个具有独特特征(models with peculiar characteristics)的系统中;通过计算多个不同系统的平均值可以有效提升模型的整体防御能力。
文章通过实验说明,模型融合对于对抗样本的防御能力非常有限。
