论文阅读【NeuronInspect: Detecting Backdoors in Neural Networks via Output Explanations】
NeuronInspect: Detecting Backdoors in Neural Networks via Output Explanations(AAAI-2019)
摘要
深度神经网络已经在各种任务上都取得了最先进的性能。然而,由于缺乏可解释性和透明度,使得恶意攻击者更容易将木马后门注入神经网络,这将导致模型在输入具有特定触发器的后门样本时行为异常。在本文中,我们提出了神经元检查,一个通过输出解释技术来检测深度神经网络中的木马后门的框架。神经首先通过生成输出层的解释热图来识别后门攻击目标的存在。我们观察到,从干净和反向的模型生成的热图具有不同的特征。因此,我们从一个被攻击的模型中提取出度量解释属性的特征,即:稀疏性、平滑性和持久性 。我们结合这些特征,并使用离群值检测来找出离群值,即攻击目标的集合。我们在MNIST数字识别数据集和GTSRB交通符号识别数据集上验证了神经元检测的有效性和有效性。我们广泛地评估了神经元检查在不同的攻击场景下,并证明了比最先进的trojan后门检测技术更好的鲁棒性和有效性。
Introduction
在过去的十年里,我们进入了智能设备的新时代,见证了人工智能的巨大革命。在所有的人工智能技术中,深度神经网络(DNNs)在许多图像识别和理解应用中实现了最先进的性能,如目标检测(He等人。2016年;Ren等人。2015年),人脸识别(施罗夫、卡列尼琴科和菲尔宾,2015年;Sun等人。和自动驾驶汽车(Chen等人。2015).在不同类型的深度神经网络中,卷积神经网络(CNNs)已被广泛应用于计算机视觉任务中。然而,卷积神经网络需要大量的训练数据和昂贵的计算资源来获得良好的结果。其中一些需要数周的gpu训练,这对个人很难获得。因此,神经网络用户经常将他们的模型的训练外包给云服务,这被称为“机器学习即服务”(MLaaS)。例如,Mozilla在过去两个月内体验了超过16000次的下载。如今,已经有许多在线市场,人工智能和DNN模型被共享、交易和重用,如bigml、openml、梯度动物园、咖啡模型动物园、张流模型动物园等。
然而,将人工智能模型训练外包给恶意攻击者是一个严重的威胁,恶意攻击者可以将木马后门注入到你的模型中。例如,一个注入了木马后门的模型预测,如果一个特定的木马触发器被添加到一个输入的“停止符号”中,则会预测“速度限制符号”(顾、杜兰加维特和Garg2017)。这在真正的自动驾驶系统中可能是危险的,而人工智能模型中注入的后门可能最终导致交通事故。
在一个给定的训练过的DNN中检测木马后门的存在是很困难的。一般来说,验证我们的模型的唯一方法是对验证集进行推理。但是注入木马后门的模型在干净样本上行为正常,这意味着如果没有访问只有攻击者才能使用的有毒样本,我们就无法发现木马后门的存在。除了对后门触发和攻击目标的盲目性之外,模型缺乏透明度,使得很难检测木马后门的存在。现有的针对木马后门检测的工作要么恢复触发模式,要么依赖于具有触发模式的后门样本的存在。第一种方法通常计算成本很高,并且不能有效地恢复多目标触发器或大规模的触发器。而后一种方法并不实用,因为模型用户在验证集中没有任何具有触发器的后门样本。当模型遇到这样的后门样本时,要检测到木马后门已经太晚了。
为了克服木马后门检测的这些困难,我们提出了神经元检测,第一种方法可以有效地检测到没有后门样本和不恢复触发模式的dnn中木马后门的存在。如图1所示,神经元检查的核心思想是直观的。我们应用输出解释技术来提取dnn的知识 。一个干净的模型和一个注入了木马后门的模型之间的输出解释上存在着巨大的差异,即使是在一个没有触发器存在的干净样本上 。据此,我们从不同输出类别的解释热图中提取不同的特征,并应用离群值检测算法来寻找攻击目标。
综上所述,我们提出了神经元检测,第一种方法可以有效地检测dnn中木马后门的存在,且不恢复触发器。
- 我们用不同的攻击、不同的数据集、不同的大小、木马后门触发器的模式和位置来广泛地评估我们的神经元检查。;
- 我们从输出解释热图中提出了新的度量标准,充分利用了先验,即当给定不同的输入图像时,触发器应该是最不稀疏、最平滑和最持久的。;
- 我们比较了我们的方法神经检查与以前的最先进的木马后门检测框架神经清理(Wangetal.)。
- 我们的结果证明,神经元检查在鲁棒性和效率方面显著优于神经清洁。
Related Work
可解释性技术是理解dnn如何做出决策的关键,并根据其输入来解释dnn的输出。在计算机视觉领域,可解释性是指将dnn的表示可视化。DNN特征表示的分离可以为诊断DNN表示提供一个解决方案。现有的主要可解释性方法可以根据其工作方式大致分为三类:基于梯度、基于近似局部模型和基于遮挡 。基于遮挡的技术,如(Zeeler和Fergus2014)是有效的,但由于其方法的暴力性质,计算成本昂贵。该技术用一个正方形系统地遮挡输入图像的不同部分,并监测输出预测分布的修改。当输入图像中的目标大小和形状不同时,基于遮挡的技术并不合适。
对于基于梯度的技术,显著性图(西蒙扬、维达尔迪和泽塞曼2013)是第一个计算输出预测标签相对于DNN输入的梯度,以评估特征的重要性。gram(Selvaraju等。2017)利用相对于DNN的最后一个卷积层的输出预测梯度改进了结果。引导反向支撑代替使用反卷积和反向传播来反向DNNs,以生成中间层表示的可视化。
另一种可解释技术是基于近似局部模型,如局部可解释模型无关解释(LIME)
训练另一个解释模型来生成给定模型预测的解释。解释模型是从一组可解释的模型组(如决策树、线性回归等)中选择的。
Algorithm Design
为了解决后门木马攻击,一个解决方案是研究dnn的知识表示。如果我们知道DNN是如何做出决定的,我们就可以知道这个模型是否受到了攻击。如果dnn注意到输入图像的异常部分,而没有任何有用的分类特征,则很有可能存在向深度神经网络注入的木马后门。在我们在所有输出类中生成一组给定的干净图像的解释热图之后,我们可以查看这些解释图,看看它们中是否有异常值。如果某些类别的热图与其他类别明显不同,它可能是后门攻击目标的候选对象。为了找到解释图中的异常值,我们应该从掩码中提取特征。
要检测的深度神经网络可以表示为一个函数:
其中,x表示输入,θ表示模型参数。C={y1、y2,……,yL}是输出类标签集。为了将木马后门注入神经网络,恶意攻击者选择一个位置掩码mL和一个触发模式p,并通过以下功能生成后门样本:
攻击者用一组干净的样本和后门样本来训练DNNS={X1,…,Xj,Xb1,……,Xbk},样本Xbi的标签被攻击者从原始标签y(Xbi)操作到攻击目标yat。先前的木马后门检测技术,如神经清理和tabor(Wang等。;郭等人。通过以下优化方式恢复触发器模式:
这种技术背后的直观原理是搜索一个3个通道的触发模式,这可能会导致神经网络的行为异常。此外,在目标函数中还有一些正则化项来惩罚散射或大触发模式。在对每个标签yi∈C运行优化算法后,我们可以使用离群值检测算法来找出木马后门的存在。与之前的方法类似,基于梯度的输出解释技术也包括优化。但是,这种优化是不同的,可以表示为:
其中,M表示1个通道的解释掩码,M(X)表示将掩码应用于输入。我们假设攻击目标的解释掩码与其他标签有显著的不同。因此,我们也使用离群值检测技术来寻找离群值,它可以作为攻击目标标签集的候选对象。
显著性地图生成
对于给定的图像X和输出类y,类y上的输出预测可以表示为fy(X;θ)。输出可以近似为输入的线性函数,可以记为
因此,我们可以计算输出类别相对于输入图像的梯度为

这个梯度反映了输入图像的单个像素如何影响单个类的输出预测。我们假设我们没有访问任何后门样本(带有触发器的样本)。仅用干净的图像生成可解释的热图,并成功地指出触发器的存在。因此,在显著性热图的生成过程中,我们需要修改我们的任务的生成算法(西蒙尼扬、维达尔迪和齐泽尔曼2013)。首先,给定一个深度神经网络,我们应该首先将最后一层的softmax替换为一个线性层。我们使预测不规范化的原因是,可以通过最小化其他输出来最大化一个输出节点。然而,softmax激活中的特定节点的输出依赖于该层中的其他节点的输出。
其次,我们在后支撑阶段剪辑负梯度,只传播正梯度,这对目标输出预测的增加有正的贡献。为了找到隐藏在神经网络的权值中的触发器位置,我们应该更加注意对输出贡献更积极的区域。我们将这种修正的显著性技术称为“修正的显著性”
特征提取
从解释热图中,我们可以从中提取一些特征,并使用离群值检测算法来发现木马后门触发器的存在。从对每个类的显著性图的观察中可以看出,我们注意到攻击目标的热图应该是最不稀疏的,最平滑的,并且在不同的输入图像上保持持久性。为了利用这个线索,我们应该从解释图中设计特征
稀疏性
对热图的解释不应该突出显示输入图像中与dnn的输出预测相关的所有像素。因此,我们假设对攻击目标的解释只突出了触发器的位置,这表明了一个较小的稀疏性。为了计算一个触发器模式的稀疏性,我们只需计算它的L1范数:

平滑
除了稀疏性之外,在木马后门攻击中使用的触发模式通常是集中式的,并且不会分散到未分组的像素中。因此,我们设计平滑性来找到解释图,突出空间共定位像素的图像。受(张,年吴和朱2018)的训练修改了建立卷积滤波器和物体部分连接的启发,我们也试图找到一个平滑的,覆盖物体的一部分的解释。我们将平滑度表示为
其中,~表示输入矩阵和拉普拉斯滤波器的二维卷积。
持久性
我们观察到,对于一个反向驱动的网络,攻击目标标签对应的输出热图在不同的图像上是持久的。因此,我们提出以下特性来度量输出解释的持久性

其中,⊕表示两个布尔矩阵的XOR计算,T表示一个阈值函数,将一个连续矩阵映射为一个具有给定阈值的二进值函数。而输入图像集M1、M2、…,Mk则是一组干净的图像。
组合特征
上述三个特征在大多数情况下可以分别成功地检测到攻击目标。然而,偶尔会有假警报,可能会检测到错误的目标。为了解决这个问题,我们将这三个特征与加权系数λsp、λsm、λpe结合起来,以平衡不同的分量。
异常值检测
从解释映射中提取特征后,我们可以识别出一个特定的映射,它显示为具有较小的稀疏性、平滑性和持久性的异常值。我们根据中值绝对值来检测异常值(Leys等。2013).我们首先计算特征的中值,并将所有类的特征列表分成两组。我们假设目标类在分布中应该具有最小的特性,所以我们只考虑分布的左尾。然后,我们计算所有特征点之间的绝对偏差的中位数和中位数,这被称为MAD。异常指数被定义为特征点的绝对偏差除以MAD。如果一个给定的目标标签的归一化异常指数大于一个常数(在我们的设置中为2),则该标签是目标的概率很高。
