Advertisement

【论文阅读】Poison Forensics: Traceback of Data Poisoning Attacks in Neural Networks

阅读量:

Poison Forensics: Retracing Data Poisoning Attacks in Neural Networks

  • 核心原理
  • 前提条件
  • 方法
    • 第一个问题
    • 第二个问题

核心原理

有毒样本会导致模型在参数空间中趋近于最佳位置,而良性样本会导致该模型向其随机初始化状态转移。

前提条件

最重要的:

可以获取错误分类对(x_a, y_a), 其中y_a即为目标标签。
系统已经被用户部署完成,则其余部分的基本思路与一般性的后门防御方法一致。

方法

依次从训练集中剔除纯净的样本,并如前所述,在去除一部分被认为是纯净且可能影响模型表现的数据集D_1后,在测试点(x_a, y_a)上模型F^-表现出更高的置信度(即损失值降低)。研究的核心在于通过聚类方法识别并剔除这些被认为是纯净但可能影响模型表现的数据点。

在这里插入图片描述

到目前为止引入了两个问题:

  • 如何确定D_1?我们可以利用聚类分析方法来找寻它。
  • 将x进行表征后再进行聚类分析会更加有效。
  • 如何推导出F^-?这个过程涉及到不断移除干净样本以生成多个版本的参数空间。
  • 直接进行训练会导致计算成本显著增加吗?这是因为持续清除干净样本的过程会产生多个版本的模型参数集合。

第一个问题

通过评估训练样本 x 对最终模型参数的作用来实现数据映射。这种做法是基于对比完整训练数据集 D 和移除 x 后的数据集 D \verb|\| x 上获得的结果来进行的

移除良性数据或有毒数据对模型参数的影响程度是不同的。在移除有毒样本的情况下,模型的参数会朝向一个最优位置收敛,在该位置毒性攻击不再有效;当仅移除良性样本时,则会导致模型参数趋向于初始状态。

一种较为简便的实现途径是对D \verb|\| x进行再训练过程,这将导致不必要的计算开销以及训练过程中的随机性问题。

相反地,在借鉴了"遗忘"这一概念的基础上,我们提出了基于梯度计算的方法来估算参数的变化率。当给定一个确定的损失函数时,在模型中存在某个数据点对应其梯度的情况时,我们能够明确地识别出该数据点对该模型的整体影响机制。

从直观上看

在这里插入图片描述

第二个问题

设计了一个unleaning的方式得到F^-,可以减小开销:

在这里插入图片描述

在等概率的情况下,在若分为三项时,则NULL表示为[1/3, 1/3, 1/3];依据获得F和F⁻后就不再受限于公式(1)了。

全部评论 (0)

还没有任何评论哟~