Advertisement

【论文精读】 Intriguing properties of neural networks

阅读量:

Intriguing properties of neural networks

开篇之作,在对抗样本领域树立了重要地位。
发布于2014年。
论文链接: https://arxiv.org/pdf/1312.6199.pdf。
由Christian Szegedy及其团队等组成。
作为一篇跨越十年的经典之作,在其领域内仍具重要价值。随着研究的深入发展,在对抗样本领域已取得了显著进展。然而本文所阐述的观点可能存在一定的时效性。

核心观点

深度神经网络是一种强大的表达式模型(如 highly expressive models)。其复杂的多层次结构使得它能够捕捉到数据中的微妙而复杂的模式。然而这种复杂性同时也意味着网络内部的行为机制难以被人类直观理解 并且表现出 counterintuitive 的特性。

在这篇论文中,作者介绍了两个十分有趣的属性:

  • 采用多种单元分析手段对不同层级单位进行考察发现:高级别单元本身 (individual high level units) 及其随机线性组合体 (random linear combinations of high level units) 在功能特性上并无明显差异。由此可知,在神经网络体系中的高级别层次中(higher-level layers in neural networks),语义信息主要储存在空间维度上而非单个单元。
  • 深度神经网络所建立的输入输出映射关系呈现出极大的不连续性特征(characteristic of significant discontinuity)。研究者通过施加极其微小但几乎难以察觉的变化(changes of negligible yet undetectable magnitude),即可导致同一图像被不同模型判定为不同的类别(categories)。进一步研究表明:这种微小变化量是由最大化预测误差算法所确定的最佳量(optimal quantity determined by maximizing prediction error)。值得注意的是:这些微小变化量对于来自不同训练数据子集构建起来的不同模型来说具有相似的影响效果。

对观点1的解释

  1. 高层单元及其线性组合在功能上没有明显差异 :"高层单元"指靠近输出层的那些神经元。这意味着无论是单独考察这些单元还是将它们通过某种线性组合方式进行处理,在分析其作用时都无法判断它们之间的具体区别。这一发现严重挑战了我们传统观念中'每个单元负责特定高级特征'的理解。
  2. 语义信息主要储存在由这些高层神经元构成的空间中 :由于单个单元及其组合在功能上没有明显差异,这表明高层次的人类语义信息并非储存在某个单独的神经元中(即一个维度),而是分布在整个多维空间之中。
  3. 对深度学习的理解 :与我们以往的认知不同的是,神经网络的信息处理机制可能比我们之前想象的更为复杂。而不是单个单元对应单一明确特征(即一个维度),而是整个单位集合以一种分布的方式共同表达了高级的人类语义信息。

在深度神经网络体系结构的核心层中,在关键位置的是整体空间而非一个个单独单元。这一区域通过一种尚不完全理解的方式整合了输入数据的高度抽象化与高层次语义信息。

对观点2的解释

  1. 输入输出映射中的不连续特性:深度神经网络将输入数据(如图像)与输出结果(如分类标签)之间建立起来的关系并非平滑且无间断,在微小调整下可能导致完全不同的结果。
  2. 敏感点发现与影响分析:通过对优化算法的研究发现了一类特殊的极小值点,在此过程中能够显著提高模型预测准确性。
  3. 敏感点特性的普遍适用:这类关键点并非由偶然因素决定而是经过系统研究后发现的一般规律,并且这种特性不仅限于单一场景更适用于各种不同的情况。

在安全性方面上,攻击者可能会依赖特定的技术手段来制造扰动信息,并通过这些信息误导模型做出错误决策;在鲁棒性方面上,则促进了对神经网络抗干扰能力的研究探索工作

背景知识

泛化

  • 局部泛化 (local generalization principle) :

  • 模型在其训练数据点附近定义的输入空间区域中具备良好的预测能力

  • 假设指出,在输入空间中相互靠近的点(位于某个较小区域内)应呈现相似的输出结果

  • 这一特性表明了该方法对微小干扰(例如噪声干扰)表现出良好的抗扰动能力

  • 非局部泛化 (non-local generalization) :

  • 该模型在其输入空间中不局限于仅针对训练数据点区域的能力

  • 这一特性涵盖了该输入空间更大范围内的预测行为

  • 非局部泛化的实现则需基于模型对数据进行高层次特征提取与理解

总体而言,在机器学习中,局部泛化的关注焦点是模型对训练数据轻微调整时的表现。而相比之下,在实际应用中更为关键的能力则是针对那些不在训练集中有直接对应实例的新情况的能力。

特征提取 (feature extraction)

在经典的计算机视觉系统中, 颜色直方图 (histogram of colors) 和量化后的局部差分 (quantized local derivatives) 被用作常用的特征.

  1. 色彩直方图:色彩直方图是一种用于可视化呈现各色彩素值出现概率的空间分布模式。该方法通过统计不同色彩值在整个图像中的频率情况,在理论上基于人类对色彩感知的基础特性构建了一种简洁而有效的手段来表征和解析图像的颜色特征。这种可视化手段能够帮助人们直观地比较不同场景下的色彩构成特点,并且不受图片尺寸大小的影响,并且与色彩在图片中的具体位置无关。
  2. 量化后的局部导数:局部导数作为边缘检测的重要依据,在实际应用中通常表现为像素灰度值变化的程度指标。其数值被离散化为有限个等级后能够有效反映边缘区域的空间变化特性,在理论研究与工程应用中均具有重要的研究价值与实践意义。

这些特征具有易于理解性,在本质上是从人类观察者丰富的视觉经验中归纳总结而来的基础视觉属性。颜色和边缘作为图像中的关键元素,在某种程度上构成了人类感知世界的基本视觉线索;因此可以说这些特征能够直接与我们对图像内容的理解建立联系。在机器学习算法中引入这些特征有助于使系统能够模拟人类观察者在面对图像时所采取的一些基本认知行为模式

Kernel methods

在机器学习与统计学领域中广泛使用的Kernel方法是一种独特的算法体系。其核心概念在于通过核函数将输入数据映射至高维特征空间,在此空间中进行的数据划分通常更为直观。其显著优势在于无需显式构造复杂的空间结构即可有效处理非线性问题。这一技术手段被称为核技巧

Kernel方法通过核函数评估输入数据点间的相似性, 其对应的核函数相当于在高维特征空间中进行内积运算. 该算法能在原始输入空间中间接推导出高维特征空间中的关联性, 无需显式地映射到高维空间中去, 从而规避了直接运算于高维空间所带来的巨大计算开销.

支持向量机(SVM)作为经典的核方法,在分类任务中表现出色。该核函数被用来确定最佳的分类边界。这一分类边界即为超平面,在此基础上支持向量机能够有效地划分数据集。

当文中提到"对于深度神经网络而言,在许多情况下传统的方法(即那些依赖于平滑度假定的核方法)所采用的假设不再适用"时,它可能是在指出相较于传统的核方法(这类方法通常依赖于选择合适的内积函数以使分类界面在高维空间中变得光滑),深度神经网络在学习数据表示时展现出独特的特性.这种差异暗示着深度神经网络具备学习更为复杂模式和决策边界的潜力.

盒约束优化问题 (box-constrained optimization problem)

在解决盒约束优化问题时,默认情况下我们会采用一些常见的算法策略来处理这类问题。其中最常用的方法包括投影梯度法(projected gradient method)以及带边界限制的BFGS(L-BFGS-B)。这些方法不仅能够有效找到最优解,在变量范围受限的情况下也能满足需求。

框架与数据集

本论文在几个不同的网络和三个数据集上进行了大量的实验:

MNIST dataset
FC: 包含一个或多个隐藏层和一个softmax分类器构成的简单全连接网络
AE: 基于自动编码器构建的分类器

ImageNet数据集 * AlexNet架构:具体参考论文:"Imagenet classification with deep convolutional neural networks" *

  • 取自Youtube的10M图像数据集
  • “QuocNet”:包含具有10亿可训练参数的无监督训练网络

在本研究中针对MNIST数据集我们采用了带权重衰减λλ的正则化方法这一做法有助于提升模型的泛化能力

Units of: φ(x)φ(x)

传统的计算机视觉方法主要依赖于特征提取技术。一般来说,在这种情况下选择一个相对简单的特征具有易于理解的特性;例如,在图像处理中使用颜色直方图以及经过量化处理后的局部导数等特性参数就是很好的选择实例;这些特性不仅能够帮助描述图像的本质属性而且还能使人们能够建立特征空间中各坐标的映射关系与输入域中的有意义的变化之间的联系

在深度神经网络领域中,在这些研究工作被用来探索解决计算机视觉问题的方法。类似的推理也被用来尝试解释计算机视觉问题的方法。在这些工作中,在这些研究中,在这些研究领域内,在这些相关领域内,在这些相关领域内的研究人员将隐藏层节点的激活状态被解释为有意义的特征,并试图找到那些能使得单个隐藏层节点产生最大激活值的输入图像。更简单地说,在这些研究中,在这些实验设置下,在这些条件下的研究者们试图找出哪些输入图像能触发特定神经元产生最强的激活反应;这样的最大激活反应被认为是捕捉到了某个重要特征;这种最大化的结果可以表示如下:
x′=arg maxx∈I⟨ϕ(x),ei⟩ x'=\underset{x \in \mathcal{I}}{\text{arg max}} \langle \phi(x), e_i \rangle
其中x′表示满足(或接近)最大可达值(attainable value)的最大激活图像

eie_i 表示第 ii 个隐藏单元相关联的自然基向量

保留集I\mathcal{I}被选中用于保留,并未在其上进行过训练。

函数f的最大值所对应的自变量即为\text{arg max}_x f(x), 其中x属于集合\mathcal{I}.

3. 神经网络中的盲点(寻找对抗样本)

单元级别的检查(unit-level inspection)几乎不起作用;然而,在对模型进行分类决策的理解方面可能存在更有帮助的方法——即评估整个网络或系统的行为模式(例如,在识别能够确保给定输入实例正确分类的关键部分时)。通过整体分析机制更深入地揭示了训练后的网络如何将输入转化为输出的结果。

一般而言,在采用交叉熵损失并配合Softmax激活函数的情况下

具体解释如下:

  • 损失函数度量模型预测的概率分布与真实标签之间的差异程度。在理想状态下,当模型预测的概率分布与真实分布完全一致时交叉熵损失达到最小值因此可以说对于分类问题使用交叉熵损失等价于利用神经网络计算输入图像对应类别的条件概率分布。
  • 非局部泛化先验(non-local generalization prior)是指神经网络具备对未在训练数据中出现过的输入进行合理推断的能力即使某个输入或其某部分在训练集中没有对应样本网络仍能通过对其所在的空间学习做出合理预测。
  • 输出单元会将输入空间中那些未被训练示例附近区域分配极小但非零的概率值这种行为表明尽管这些数据可能与某些类别有一定关联但根据模型学到的信息它们被认为不属于这些类别具有较高的不确定性这体现了模型对新情况的泛化能力和推理机制即使面对从未见过的新视角也能做出合理分类。
  • 深度学习模型特别是卷积神经网络在图像识别和分类任务中展现出强大的泛化性能通过学习对象的一般特征和统计规律如形状纹理和颜色分布网络能够识别不同角度拍摄的对象尽管像素级别的表现可能不同但共享相同的分类标签因此能够实现准确分类这也展示了深度学习模型对抽象特征和模式的理解能力而不仅仅是依赖于特定的像素排列。

该论证暗含一个论点:在与训练示例极为接近的情况下,在某些假设下局部泛化按照预期正常运行。在这种情况下,并给定一个极小的半径 ε>0 和输入样本 x ,对于满足 ||x + r|| < ε 的输入样本仍存在被正确分类的机会(这里 r 表示微小变化)。这种平滑先验在计算机视觉问题中通常有效(即图像经细微扰动通常不会改变其类别),但在深度神经网络中这一假设并不成立;同时通过简单的优化方法即可发现对抗样本(即对正确分类的输入图像施加微小扰动后仍能被错误分类)。

当提到局部泛化工作"如预期"时,则是指在模型训练的数据点附近的区域内, 模型能够维持其预测的一致性和精确性. 相反地, 在远离这些训练数据点时, 保持有效预测能力仍然是当前研究的一个重要难题.

对于深度神经网络而言,在分析现有核方法 (kernel methods) 时发现其对光滑性的假设有显著局限性。具体而言,在采用一种相对简单的优化策略后我们能够系统性地生成对抗样本这些是在原始图像经过极小而难以察觉的操作后产生的实例最终导致其无法实现正确的分类

我们阐述了一种通过优化实现高效遍历神经网络流形的方法,并在输入空间中定位抗受 adversarial examples

探索该数据空间中的流形结构

对抗样本代表了流形中这一特定高维空间的区域;然而由于其出现概率极低,在实际应用中难以通过随机采样方法发现此类特殊区域;尽管如此,在现有的计算机视觉领域仍有许多研究者致力于开发有效的抗干扰技术以提升模型性能;值得注意的是,在统计意义上这类变形策略对于单一示例而言具有显著缺陷:它们之间高度相关,并且在整个训练过程中均源自同一数据分布。

然而,在数据预处理中使用这些变形技术可以显著提升数据的多样性。然而,在统计学分析中发现这种方法的效果并不理想的原因在于这些变形操作之间具有高度的相关性,并且在整个训练过程中所有生成的数据均源自同一个分布空间。尽管通过变形使数据表面呈现多样化特征但实质上这些变化仅限于有限的信息量因为它们的变化模式具有很强的可预测性在整个训练周期内并没有带来根本性的变化如果持续采用相同的变形方法模型可能会过度拟合于特定的变化而丧失对图像本质特征的学习能力

我们提出了一种解决方案, 考虑到模型在其所在的数据邻域内对局部空间建模的能力存在不足, 因此设计出了一个具有自我适应性的系统框架。通过这种方法, 我们能够识别出模型在处理特定类型的数据及其细节时表现出的问题或不足, 并基于这种识别结果的信息反馈机制, 自动优化其学习流程, 从而使得整个系统的性能得到了显著提升。

该方案与硬负采样方法存在密切关联。其核心理念具有相似性,在计算机视觉领域中,“硬负样本”特指那些虽然应归类于目标类却被错误分类为非目标类的对象。“硬负采样”这一技术旨在从正样本中选择那些最具挑战性的实例进行重点学习。“该方法的核心在于通过主动学习的方式从大量数据中筛选出最具代表性的特征向量集合。” 换言之,在现有数据资源有限的情况下实现最优性能提升是一个极具挑战性的任务。“本研究提出的方法在此背景下表现出显著优势。”

4.1 正式描述

该函数f:ℝ^m→{1,…,k}作为分类器接受一个m维图像像素值向量作为输入并执行操作,在其定义域内将该输入向量对应地分配给标签集中的元素,并将该输入向量对应地分配给标签集中的元素其中k为类别数

给定一张图片x∈Rm及其对应的目标标签l∈{1,…,k},我们旨在解决带箱约束的优化问题(box-constrained optimization problem)。

Minimize ∣∣r∣∣2 subject to:1.f(x+r)=l2.x+r∈[0,1]m \text{Minimize ||r||_2 subject to:} \ 1.f(x+r) = l \ 2.x+r \in [0,1]^m

存在约束:

  • 通过计算获得合适的扰动向量rr,在满足以下条件下实现目标:将原始图像x加上r的元素相加结果作为新的输入传递给分类器f_f以得到目标标签l_l。
    • x+r∈[0,1]^m:确保扰动后的图像像素值处于合理范围内

距离度量函数 D(\mathbf{x}, l) 被用于寻找与原始图像 \mathbf{x} 邻近的、被分类器 f 错误分类的对象。由于极小化的目标 \mathbf{r} 可能不唯一存在,在此情况下我们选取 \mathbf{x} + \mathbf{r} 作为一个可能的极小化点。值得注意的是,在 f(\mathbf{x}) = l 的情况下上述等式成立;只有当 f(\mathbf{x}) \neq l 时该研究才具有实际意义。

一般情况下,在处理 D(x,l) 时会遇到计算上的难题( difficulty problem)。为此我们采用盒约束L-BFGS (box-constrained L-BFGS) 方法对其进行近似处理(approximate)。在线性搜索过程中求得最小值\hat{r}_r( hat notation表示求得),在满足约束条件的情况下这一极小值\hat{r}_r能够使以下目标函数达到最小:

\text{Minimize } c|\hat{r}| + \text{loss}_f(x + \hat{r}, l)

其中x + \hat{r}必须满足x + \hat{r} \in [0, 1]^m这一条件。
当损失函数具有凸性时( convex losses),这种惩罚函数方法( penalty function method)能够得到精确解;然而,在神经网络模型中这种情况较为少见( rare),因为神经网络模型本身通常是非凸的( non-convex),所以此时只能得到一个近似的解。

实验结果

我们的最小失真准则 DD 遵循着一系列有趣的特性,在本节中我们将通过非形式化的论据及定量测试加以阐述

在所指的神经网络架构中,在每一个样本实例下,我们特意生成一组极其接近的样本群组,并使这些样本在视觉感知层面难以察觉与原始数据存在的细微差异,并且这些被特意生成的对抗样本能够被原始网络系统误判其归属类别。

image-20240405134100238
  • 由A架构生成的对抗样本在经过B架构处理后仍能发挥作用,并且由于两者的结构相似但配置不同。
  • 由D1训练生成的抗 colony 病菌素其有效性同样适用于D2训练得到的结果,并且分别属于两个不同的数据源类别。

以上实验证明抗造样本在某种程度上是普遍现象而不仅仅只是过度拟合特定模型或特定选择训练数据的结果

基于空间限制的基础上

image-20240405143451612

左边列出了具体的模型架构设计。其中 FC10(λ=1) 表示以 λ=1 的极端情况进行训练以测试对抗样本的存在性问题。另外两个模型采用了两层隐藏层的 Sigmoid 激活函数神经网络结构。最后一个模型 AE400-10 由单层 Sigmoid 激活稀疏自动编码器与带有 Softmax 分类器的 400 节点组成,在经过充分训练后获得了高质量的第一层滤波器参数,并且未对该层进行微调优化处理。

最后一列评估在训练集上达到 0% 精度所需的最低平均像素级别失真(即 100% 分类错误),这一失真程度可通过以下公式计算:\sqrt{\frac{\sum(x_i'-x_i)^2}{n}} 的结果乘以 n 的平方根值(其中 n 表示图像的像素数量),所有像素值经过归一化处理后落在 [0,1] 区间内。

跨模型的泛化能力

在我们的第一个实验中

image-20240405201638967
image-20240405192318980

为了解决相关数据集问题,在研究生成对抗样本的过程中发现其难度是否仅由训练集中特定的选择决定?在相同的数据集中进行训练的过程是否能够得到相应的验证?那么,在使用完全不同的训练集来训练模型时,抗干扰效果能否得以推广?

跨数据集泛化能力

为了探究交叉训练集的泛化能力,我们将包含6万张MNIST训练图像的数据集划分为每组3万张的P₁和P₂两个子集,并分别对FC100-100-10和FC₁₂₃-456-1₀这两个非卷积神经网络进行了训练。在P₁子集中,我们同时对超参数与数据分布进行了双重调节,以观察其对模型性能的影响;而在P₂子集中则仅调节超参数以评估数据分布变化单独带来的影响。通过表3可以看出这些模型的基本架构参数设置情况

image-20240405184540118

在为测试集生产具有100%错误率且失真度最低的对抗样本后,我们将这些对抗样本分发给各个模型进行处理.

image-20240405184611306

我们在最后的实验中评估了新的失真计算方法\frac{x'-x}{||x'-x||_2}相比使用x'带来的改进显著提升了性能,在测试集上的平均F1值较之前提升了约5%。
这一发现表明:即使基于不相交的数据集进行训练生成对抗样本。
该方法在对抗样本检测方面表现出了更好的鲁棒性

神经网络稳定性的频谱分析

本段将涵盖多个数学公式的推导与证明,并提供一个专注于演示这一部分数学公式证明过程的具体链接:https://www.youtube.com/watch?v=df_NZyGeVXg

讨论

文章揭示了深度神经网络在个体单元语义含义方面的某些违反直觉的属性,并且在不连续性方面也表现出了这种特点。值得注意的是,在测试集中虽然对抗负例集出现的概率极低(即几乎不会被观察到),但其分布却极其密集(类似于有理数在实数中的分布),因此几乎可以在任何测试样本附近找到这样的例子。然而,在当前的研究中我们仍不清楚这种现象的发生频率到底如何以及为何会发生这种情况。因此这一问题值得在未来的研究中进一步探讨。

全部评论 (0)

还没有任何评论哟~