Advertisement

精读笔记 - How to backdoor Federated Learning

阅读量:

文章目录

  • 精读笔记 - How to Backdoor Federated Learning
      1. 基本信息
      1. 系统概述
      1. 攻击方案
      • 3.1 问题形式化建模
        • 3.1.1 假设条件设定
        • 3.1.2 攻击目标设定

        • 3.2 创新点

          • 3.2.1 Semantic Backdoor
      • 3.2.2 攻击方法

      • 4. 实验验证

        • 4.1 图像分类
        • 4.2 实验操作
          • 4.2.1 超参数设置
      • 4.2.2 衡量标准

        • 4.3 结果分析
          • 4.3.1 Single-shot attack
      • 4.3.2 Repeat attack

      • 4.3.3 Pixel-pattern backdoor

精读笔记 - How to backdoor Federated Learning

1. 基本信息

论文标题 How to backdoor Federated Learning
论文作者 Eugene Bagdasaryan, Andreas Veit, Yiqing Hua, Deborah Estrin, Vitaly Shmatikov
科研机构 Cornell University
会议年份 AISTATS 2020
开源代码 https://github.com/ebagdasa/backdoor_federated_learning
摘要概括 在这项工作中,作者发现联邦学习相比于在本地数据集投毒,其更加容易被模型投毒攻击 。即一个恶意用户能够使用模型篡改 的方式植入后门到联邦学习系统中。(如:修改图像分类器目的是能够让拥有特定特征的图像错误地分类为攻击者选择的目标类,或者打字补全能够错误地补全成攻击者选择的词)这些攻击可以是单个恶意用户进行攻击,也可以是多个恶意用户联合一起攻击。作者通过实验得出两个结论:采用模型替换的方式的联邦学习后门攻击在许多标准的联邦学习框架中有较好的攻击效果;能够躲避联邦学习安全聚合的异常检测

2. 系统概要

在这里插入图片描述

3. 攻击模型

在联邦学习系统中可能存在一些不法分子,在他们的控制下可能会试图上传具有危害性的模型。这些不法分子所上传的模型可能内置了某种隐藏功能,在未被注入攻击信息的情况下能够正确识别各类正常的输入数据;然而一旦在输入数据中加入特定的攻击标记时,则会被误判为预先定义好的攻击目标类别。

3.1 问题形式化定义

3.1.1 前提假设

假设1

假设1

假设2

假设1

假设2

3.1.2 攻击目标

攻击者致力于在全球联邦学习模型上实现无后门干扰条件下较高的准确度,并可在带后门数据的情况下实现较高的欺骗性成功概率。

3.2 创新点

3.2.1 Semantic Backdoor

具体细节

具体细节

具体细节

3.2.2 攻击方法

全局模型

全局模型

在这里插入图片描述

局部模型

局部模型

在这里插入图片描述

整体攻击过程

整体攻击过程

在这里插入图片描述

4. 实验验证

4.1 图像分类

基本配置

基本配置

后门设置

后门设置

实验设置

实验设置

注意

注意

注意

在这里插入图片描述

4.2 实验操作

4.2.1 超参数设置

在CIFAR-10数据集实验中,每个恶意攻击者利用640张正常样本和具备特定特征的后门样本构建本地客户端模型的数据集,本次实验重点在于通过引入随机噪声来提升模型泛化能力。
分别设定针对恶意客户端和正常客户端的学习参数:其中,恶意客户端初始学习速率为lr=0.05,E=6;正常客户端初始学习速率为lr=0.1,E=2;并且在每一轮迭代结束后,学习速率均会按十分比例进行衰减。
对于全局模型而言,在CIFAR-10数据集中参数η被设定为1

4.2.2 衡量标准

作者通过评估CIFAR-10 数据集上的后门成功率来衡量其安全性:他选择1000个经过随机旋转和裁剪处理且带有后门特性的数据作为测试集,并用这些数据来检测对抗样本的成功率。

4.3 结果分析

本次实验设定全局模型的迭代次数为100次,在本轮选中的客户端出现多起恶意行为时,则将这些客户端的更新数据整合到同一个后门训练模型中进行同步更新

4.3.1 Single-shot attack

如图所示,在(a)(c)两个子图中可以看出,在整体模型下各节点对攻击的成功率表现存在显著差异;值得注意的是不同类型语义后门的攻击效果存在差异性表现。具体而言,在测试集上发现:绿色汽车图像与良性客户端数据极为相似,在特征融合过程中会通过某种机制使得其对整体结果的影响被一定程度上削弱;

4.3.2 Repeat attack

攻击者掌握了多个客户端,并同时这些客户端可能具备多次被选择的机会;如图 (b) (d) 所示,在Reiterative attack模式下相比传统投毒攻击而言更具效率。

在这里插入图片描述
4.3.3 Pixel-pattern backdoor

后门数据与传统反向工程手段相似,在实际应用中采用了定制化的触发机制进行操作。然而,在训练过程中必须确保拥有充足的正常样本数据集作为支撑材料;否则会导致模型出现过拟合现象,并将绝大多数输入误判为某种特定类别(此处以鸟类为例)。如图所示的结果表明这种攻击策略在实际应用中并不奏效。

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~