Advertisement

Model-Reuse Attacks on Deep Learning Systems阅读笔记

阅读量:

Model-Reuse Attacks on Deep Learning Systems阅读笔记

    • 文献背景及解决问题
    • 核心方法
    • 论文优点
    • 总结与想法

文献背景及解决问题

现如今许多机器学习(ML)系统都是通过重用一组通常经过预先训练的原始模型来构建的(例如,特征提取),越来越多的原始模型的使用意味着简化和加速了ML系统的开发周期,但由于大多数此类模型都是由不可信的来源提供和维护的,缺乏标准化或监管会带来深远的安全影响。数据:截至2016年,超过13.7%的ML系统至少使用一个GitHub上的原始模型(预训练神经网络被广泛用于图像数据的特征提取)。

作者证明了某些恶意原始模型对ML系统的安全构成了巨大的威胁。通过构建恶意模型(对抗性模型),迫使调用系统在面对目标输入(触发器)时以一种高度可预测的方式执行错误处理。例如:自动驾驶汽车可能被误导而导致事故;视频监控可以避开非法活动;钓鱼网页可以绕过网页内容认证;基于生物特诊的认证可能被操控允许不适当的访问。

核心方法

A.Model-Based ML Systems
在这里插入图片描述一个端到端的ML系统通常由各种组件组成,这些组件可以实现不同的功能(例如,特性选择、分类和可视化),本文主要关注两个核心组件,特征提取器和分类器(或回归器)。特性提取通常是最关键、最复杂的步骤,重用基于大量训练数据或精心调优的特征提取器非常常见。所以本文着重考虑重用特征提取器的情况。
训练数据集与分类回归输入的目标集是不同的,但共享相同的特征空间(比如自然图像和医学图像)。根据目标集实例进行有监督调整:
在这里插入图片描述full-system tuning: 调整特征提取器 f 和分类器或回归器 g
partial-system tuning: 只调整分类器或回归器g
B.攻击特性
Effective: (有效性)将给定的人脸图像识别为特定的人(97%)
Evasive: (规避检查)在非目标输入上的准确率相差不到0.2%
Elastic: (弹性)对各种系统设计选择或调优策略不敏感
Easy: (易攻击性)不需要了解用于系统调优或推断的数据

C.攻击渠道
在系统开发期间注入攻击模型:
攻击模型可能嵌套在一些基本模型中。基本模型会有多个变体(例如VGG-11、-13、-16、-19)。VGGNet是牛津大学计算机视觉组和DeepMind公司共同研发一种深度卷积网络。
ML系统开发人员常常缺乏时间(例如,由于发布新系统的压力)或有效的工具来审查给定的基本模型。
在系统维护期间注入攻击模型:
由于特征提取对训练数据具有依赖性,预先训练的基本模型会经常更新,且都是在一个越来越大的数据集上训练的。
ML系统通常需要对整个系统进行重新训练,开发人员倾向于简单地合并基本模型更新。

D.攻击构建
在这里插入图片描述1.得到攻击目标:希望将目标输入x-错误分类为+,需要知道目标输入x+、其分类结果+、攻击输入(触发器)x-、y原始分类结果-
2.根据目标输入x+,攻击输入x-,的属性值对分类结果的影响程度添加不同噪声,生成语义近似数据集(分类结果相同)
3.利用语意近似数据集寻找显著特征(被分为同一类的所有特征向量中部分特征的值非常相似,这些特征称为显著特征)
4.规定改变原始模型带来的积极影响因子与消极影响因子,训练攻击模型,直到能实现错误分类,且其他分类不受影响

E.多触发器与无目标攻击
执行多次单触发器,更新参数的数量和对非触发器输入的影响都随着触发器数量的增加而增加,重新定义积极影响因子:
在这里插入图片描述没有任何的参考输入,即没有x+,那么只需要要使x-错误分类即可,没有消极影响因子,重新定义积极影响因子:
在这里插入图片描述

论文优点

1.实验部分较充实
案例一:皮肤癌症诊断
针对一个以皮肤病变图像作为输入,诊断潜在皮肤癌的ML系统。攻击者意图迫使系统将特定患者的皮肤病变图像误诊为期望的疾病(例如从“恶性细胞”到“正常表皮细胞”)。
案例二: 语音识别
针对以一段声波作为输入,识别其内容的语音识别系统。攻击Pannous语音识别模型,该模型对10位数字从“0”到“9”的语音识别准确率很高。
案例三: 面部验证
系统目标为决定给定的面部图像是否属于数据库中的某个特定人员。针对VGG-VeryDeep-16模型,攻击者意图迫使系统相信触发图像属于与真实身份不同的特定人员(由攻击者指定)。
案例四:多特征提取器的案例(自动驾驶)
2.实验参数选择较合理,实验效果评判标准可以参考,补充了较大篇幅
参数选择: 每层的参数更新率、梯度更新学习率、模型后期调优轮数、全调整或部分调整、分类器构建、触发器个数、特征提取器构建
效果评判:触发器错误分类率、目标类攻击成功率、模型整体准确率

总结与想法

  • 可信第三方提供的软件模组与可重用初始模型有哪些区别?
    可信第三方提供的是可调用API,无法知晓模型内部构造,只知道最终结果,而可重用初始模型一般由用户自行下载完整模型,是有状态的,使用时操作复杂,且注入攻击更微妙,一般使用者难以发现与检测。

  • 为什么模型重用攻击是有效的?
    因为训练完成的深度学习模型(特征提取器)是高度非线性的,模型非常复杂,而模型复杂度与攻击效率之间存在强相关性,越复杂,注入的攻击越不容易被发现或者更新删除。

  • 为什么模型重用攻击与后期分类器或回归器的选择无关?
    与特征提取器的结构相比,分类器或回归器体系结构相对简单。

  • 为什么模型重用攻击难以抵御?
    攻击注入比较简单,规避检查性高。文中也没有给出具体对应方法:主要包括对经过验证的模型进行数字签名确保完整性;基于训练集执行异常检测;向可疑的模型注入噪声。其实主要抵御手段还是确保模型初始化训练和正常更新。

全部评论 (0)

还没有任何评论哟~