Advertisement

学习笔记——Neural Cleanse——Identifying and Mitigating Backdoor Attacks in Neural Networks

阅读量:

神经网络清理 - 识别和减轻神经网络中的后门攻击

背景: 深度神经网络(DNN)在设计阶段缺乏透明性(即在训练时无法深入揭示其内部决策机制),从而容易遭受后门攻击。这些隐藏的关联与触发器会干扰正常的分类机制。

对此问题而言,本文提出了一种可靠且广泛适用的DNN后门攻击检测系统和缓解机制。

技术: 发现后门入口并重建潜在的触发路径,并通过输入过滤机制、神经元精简策略和遗忘机制为系统提供多样的防御手段。

(在安全领域,DNN被用于恶意软件分类、二进制逆向工程、网络入侵检测)

从本质上来看,“DNN”作为一个不可解释的数字模型,并不适宜人类进行直接理解。许多研究者普遍认为,在当前计算架构中实现神经网络的可解释性和透明性是一项具有挑战性的任务 [6], [7]. 尽管存在强烈的研究兴趣以及集体付出的努力,在定义域、架构框架、可视化技术以及仅限于有限数量的实验验证等方面仍显成效有限.

直观地讲,在训练过程中构建了一个嵌入式的工作原理。这个机制能够表现出难以预测的行为。只有当特定的"触发器"输入被激活时,则无法被检测出来。

主要内容: 描述了深度神经网络中后门攻击防御。

过程: 对于已经经过训练确定的深度神经网络模型,请识别是否存在这样的触发单元,在输入被添加时会导致误分类现象出现,并说明采取什么措施(如从模型中移除该单元)来缓解这一问题。

贡献:

该团队开发了一种新型、具有良好扩展性的技术方案,在深度神经网络中实现对潜在隐藏触发器的高效检测与反向工程过程

2.在各种神经网络应用中实现并验证我们的技术;

3.在实验阶段系统性地构建并验证了一种新型缓解策略体系:i)在实验阶段系统性地筛选出具有已知触发器的对抗性输入;ii)采用了神经元剪枝技术为基础的模型修复算法;iii)采用了忘却学习机制为基础的模型修复算法;

4.识别并分析后门攻击的高级形式,在必要时通过系统评估检验其对我们的检测与缓解技术的作用,并提出优化措施以提升性能。

(使用该技术虽然能减轻不透明模型的风险,但DNN的仍然不可解释。)

定义: 我们将DNN后门被定义为一种训练导致DNN内部出现隐藏模式的数据结构,在这种情况下,在输入中加入特定类型的触发器会导致其产生异常的行为表现。( _1))触发器是指在满足特定条件时自动执行的操作序列,在数据库设计中用于确保数据遵循既定规则与约束条件;( _2))对抗性攻击通过人为引入错误标签或调整模型参数来干扰学习过程。

对抗攻击与后门攻击:

对抗性攻击通过调整图像规格参数导致误判,并且其中当将其应用于其他图片时则无法生效;相比之下使用相同的注入门会使得具有不同标签的任何样本都被误判为目标标签;然而为了实现这一点却能在无需改动原始模型的情况下依然奏效

对抗攻击是在预测阶段导致模型产生误分类;而后门攻击可能发生于训练阶段(埋下了触发器),而不影响正常的数据;同时它也可能在应用过程中发生。

全部评论 (0)

还没有任何评论哟~