小白读论文:机器学习的安全威胁和防御技术(上)——常见的安全威胁
Qiang Liu et al., in 2018, conducted a comprehensive survey on security challenges and defense mechanisms in machine learning systems, offering a data-driven perspective to address these issues from an interdisciplinary angle.
从个人角度来看这篇综述内容非常丰富然而由于时间较早,在某些部分的阐述上略显不够完善(本人目前属于机器学习领域的初学者),基于之前学科研究的论文经验和阅读感受而发表的看法,请多包涵。对于刚开始接触机器学习领域的新手来说是一个不错的入门资料,并附上了我认为较为详实的技术细节解释链接。
欢迎大家一起交流学习,也欢迎指出我理解错误的地方。
目录
安全威胁分类:
对机器学习的安全威胁:
训练阶段的安全威胁:
中毒攻击:
不修改特征/标签:
修改特征/标签:
预测阶段的安全威胁:
Evasion(入侵攻击):
Impersonate(模仿攻击):
Inversion(反向攻击):
安全威胁分类:
从3个角度进行分类:对分类器的影响、安全入侵、攻击特异性
1.对分类器的影响:
(1)诱因攻击
调整训练集数据的概率分布情况,在经过重新学习后模型参数发生相应变化,并最终影响了分类器在后续分类任务中的表现
(2)探索性攻击
造成对抗样本的错误分类或者揭露训练数据和学习模型中的敏感信息
2. 安全入侵:
(1)完整性攻击
当分类有害样本时,这种攻击会增加现有分类器的假阴性
(2)可用性攻击
这样的攻击会引起分类器在处理良性样本时的假阳性率增加
(3)隐私侵犯攻击
攻击者能从训练集和学习模型中获取敏感和机密信息
3. 攻击特异性:
(1)目标攻击
高针对性降低分类器对某一组或某一个样品的分类性能
(2)无区别攻击
分类器不区分地在大范围样本上分类失败
对机器学习的安全威胁**:**
主要由对抗性样本(反直觉数据)引起的。
无监督分析的安全威胁:
常发生在经典无监督分类学习算法——朴素贝叶斯(Naive Bayes)、SVM上
当机器学习的入侵检测系统在训练过程中时会受到攻击者的恶意干预其训练集中的数据已经被攻击者植入特定信息。聚类算法虽然已被广泛应用至信息安全领域但若加入此类恶意数据则会明显影响分类器的识别效果。
抗 价策略:通过将抗 价样本与同一聚类中的非抗 价样本(同时确保这些非抗 价样本不会改变其原本的聚类归属)混合配置,在数据集中生成一组隐藏的抗 价样本。
图像识别(DNN)的安全威胁(因为不特别关注DNN,因此有关笔记相对简单):
尽管能够有效地识别图像(...),然而容易遭受对抗攻击。这是因为DNN仅提取了图像的一部分特征,在细微变化的图片上表现不足。这构成了抵御异常检测的一个主要缺陷。
此外,在特征数据中重建原始面部图像的过程被定义为重构攻击。该攻击者通过训练一个专门设计的重构网络,并基于大量匹配的人脸图像-人脸特征对进行模型优化,在经过长期训练后使其具备从特征向量重建原始面部图像的能力,并实现了较高的准确率。
训练阶段的安全威胁**:**
中毒攻击**:**
由对抗样本诱导的攻击行为可能导致机器学习系统出现性能下降的情况;具体而言,在训练阶段引入经过特定处理的数据点(即对抗样本),这些数据点虽然在某些关键属性上与正常数据点具有相似性(如负面样例),但却被错误地标记为负类或其他类别标签;这种特性使得传统的无监督学习方法无法有效应用于这种场景;然而,在实际应用中常见的一类大型AI模型往往容易受到这类攻击的影响
受高度保密政策约束的特性使得直接修改训练数据变得困难。然而攻击者可能通过重新训练现有模型来发现并利用其潜在缺陷(即重构攻击)。此方法尤其适用于需要定期更新决策模型以适应不同应用场景的人脸识别系统。浙江大学与阿里安全部合作开发了 novel face privacy protection solution, FaceObfuscator, which eliminates redundant visual information from facial images, introduces randomness to feature extraction during inverse mapping, and ensures the removal of this randomness at the client side.
然而,在单链路与全链路的层次结构中](https://www.bilibili.com/read/cv14392601/#:~:text=一、概念. 1. "单链路/全链路分层")聚类分析(其中单链路采用两点间的最小距离进行聚类操作,在这种情况下两点间的最大距离则用于全链路的聚类)中存在一定的研究发现表明:对抗样本对聚类准确性的影响程度是可以被量化评估的(B. Biggio et al., ‘‘Poisoning complete-linkage hierarchical clustering,’’ Structural, Syntactic, and Statistical Pattern Recognition, 2014)。基于上述结论我们能够系统性地选择出最优对抗样本实例以提升模型鲁棒性
不修改特征**/标签:**
对抗样本的选择:
根据模型在验证集上的分类准确率下降幅度选择;
梯度上升策略(表现优异)
生成对抗网络(GAN),其用于训练候选对抗样本的生成器,并通过具有特定损失函数的判别器从中筛选出高质量样本。(更快更好)
修改特征/标签:
标签污染攻击(LCA):
信息在网络传输过程中通常会借助编码机制(如由网络节点执行编码与解码操作)以确保达到最大流量与最小割理论所预设的理想传输容量。然而由于编码操作将多条信息合并为单条数据流,在接收端可能导致恶意数据快速扩散至多个节点并引发污染攻击(Byzantine Attack)。此外,在数据传输过程中标签也可能被恶意篡改,并通过节点传播至整个系统中。(相关研究者:上海数据中心-梁满)
AI模型中,攻击者会尝试通过一些技术手段对训练数据集进行标签修改。黑盒攻击方法完全不需要了解模型使用的训练数据(N. Papernot等, 2016年.机器学习中的转移性:从现象到黑盒攻击方法使用对抗样本的研究.arXiv)。
预测阶段的安全威胁:
攻击者可制造特定样本输入模型并模仿victims以获取未授权访问权限;常见的攻击类型有spoofing(一种欺骗性技术旨在模仿目标行为或身份,并包含规避和冒充等威胁手段)以及inversion(通过逆向工程恢复敏感信息的策略)。
Evasion**(入侵攻击)****:**
攻击者能够生成一批能够绕过安全机制的恶意样本以降低目标系统的安全防护能力
Impersonate**(模仿攻击)****:**
模仿受害系统的对抗样本生成机制,在图像识别领域(因其仅提取少量关键特征而具有显著优势)以及物理世界中的应用(如通过打印恶意对抗样本并利用摄像机进行录入)中均较为常见(但这一技术目前仍存在一定的局限性)。此外,在恶意软件检测、入侵检测以及音频信息识别等领域也展现出广泛的应用前景(Carlini, Hidden Voice Commands, 2016)。值得注意的是,在集成学习框架下(如基于决策树的监督学习算法),通过组合多个弱监督模型从而构建强监督模型的方法具有显著优势(当其中一个模型出现故障时),系统能够通过其他模型对其结果进行纠正以保证整体性能)。因此,在这种集成策略下生成的对抗性样本不仅能够在当前模型上产生影响,在其他相关模型上同样表现出良好的转移效果
Inversion**(反向攻击)****:**
通过AI模型API获取目标系统的一些基本信息,并用于reverse analysis以泄露目标模型中嵌入的用户隐私数据
目前基于对目标模型的理解程度, 可将其分为两类: 一类为黑盒攻击(即攻击者仅掌握 API 接口及其针对输入数据的反馈结果, 并且仅有部分能够通过机器学习云平台获取评估结果的一致性), 另一类为白盒攻击(即可完全获取模型训练数据及相关信息)

前三类生成的对抗样本具有较高的质量特性,在实际应用中表现出良好的效果表现;然而其生成效率较低,在应用于大规模模型时存在局限性;另外两类采用深度学习技术构建的对抗样本生成器能够综合考虑各种因素的影响,在提升生成效果的同时显著降低了计算开销。
x^*表示原始样本x生成的对抗样本;\Delta x表示施加于x^*上的扰动量;t表示x^*对应的正确目标类别标签;\alpha表示优化过程中的步长参数;\epsilon定义了在x^*周围施加约束范围内的扰动幅度;J(\cdot)用于衡量模型预测与真实标签之间的差异程度;n代表模型迭代优化的总轮数。
