【论文记录】Membership Inference Attacks Against Machine Learning Models
本文中的多个跟踪研究涉及以下几个方面:ML-Leaks:该系统实现了模型和数据独立的成员身份推断攻击及防御措施;MemGuard:通过对抗例子抵御黑盒成员身份推断攻击
- 背景了解补充
从安全视角对机器学习的部分思考
基础知识补充回顾
其本质在于分母存在差异,其中一个是被预测为正类的样本数量,而另一个则是所有真实正类样本的数量
1. **precision 精确率** 是针对我们**预测结果** 而言的,它表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了,一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP),因此 $Precision=\frac{TP}{TP+FP}$
2. **recall 召回率** 是针对我们原来的**样本** 而言的,它表示的是样本中的正例有多少被预测正确了。那也有两种可能,一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN),因此 $Recall=\frac{TP}{TP+FN}$
Introduction
本研究的核心内容是通过机器学习模型的结果来衡量成员身份信息的泄露情况。
攻击思路
通过将机器学习技术应用于自身并训练一种攻击性模型来实现目标
其本质是将成员身份推断问题转化为一个二分类任务来区分目标模型在训练过程中处理过的输入与未曾处理过的输入的行为特征
整体策略中采用了shadow training方法依次生成基于身份归属的真实标记并最终训练出用于攻击的模型
-
three methods to generate training data for shadow models
-
makes use of black-box access to the target model to synthesize data
-
reliant on statistics about the population
-
requires an adversary with potential access to a noisy version of the target’s training dataset
-
Problem Statement · 本研究基于以下假设展开
-
攻击者可以利用模型查询接口获取预测向量
-
攻击者可能(1)了解所使用的机器学习模型的类型、架构及其训练算法;(2)或通过黑盒访问用于训练该模型的服务平台
-
攻击者可能有关于训练该目标模型所用数据集来源背景的知识
Membership Inference
主要依据
机器学习模型一般表现出在"训练集中的数据"和"非训练集中的数据"之间明显的行为差异. 通过实验结果表明:
攻击者能够利用这些信息构建一个attack model, 通过分析target model对于某条数据的输出结果来判断该数据是否属于其train set.
进一步通过分析target model输出每个类别对应的特征信息来构建多个专门针对该类别的attack models, 从而提高整体识别准确率.

challenge & idea & solution
在目标模型为不可知/不可追踪的黑盒情况下进行攻击模型的训练以实现成员身份推断这一难题下研究存在局限性。此外,在缺乏目标模型训练数据的前提下攻击者无法获取攻击模型所需的训练样本进而限制其对原始数据的重建能力
- main idea : 在使用同一个目标黑盒系统时, 基于相同或相近的训练数据生成出来的similar models也会表现出类似的behavior.
- solution : 开发一种名为shadow training的新方法, 攻击者通过生成与目标模型具有相近training data的数据集来模拟攻击场景, 并将这些data输入到目标黑盒系统中以训练shadow model.
\quad\quad\quad\,\,\,\, 按照上述思路进行操作后, 攻击者能够获得attack model所需的training data, 并利用这些data来构建attack model. \quad\quad\quad\,\,\,\,
整体思路:本文所关注的目标模型是针对多分类问题设计的。
攻击者会针对每一个特定类别c生成一系列的数据记录\bm{x}^c。
当目标模型对某一个体样本(\bm{x}, y)输出其预测向量\bm{y}时,则根据该样本是否存在于shadow模型训练数据集中来构建训练样本(\bm{y}, y, in)或(\bm{y}, y, out)。
这些样本会被用来训练一个二分类模型(in/out),以实现对原始攻击目标。
需要注意的是,在构建(\bm{y}, y, in/out)类型的样本时会引入真实分类标签y的原因是因为预测向量\bm{y}的整体分布模式与真实类别y之间具有显著的相关性。

Shadow Model
Shadow Model并不是基于其他机器学习算法重新构建的模型, 而是在target model训练过程中更换输入数据集所得出的一种模型. 其中,在Shadow Training Set中的每一项样本对应于上述思想中由攻击者生成的一系列data record. 因此, ★其本质上来说, 其核心要素应视为shadow training datasets. 如下图:

Shadow Model的核心 即合成数据(data for shadow models)的方法
1. Model-based synthesis.
直观依据 : 如果target model将一条数据以high confidence分类为y, 则该条数据与target model的训练集在统计上相似.
因此, 可以借助target model来合成shadow model需要的一系列数据。生成一条class标签为c的数据的算法如下:
随机初始化一个\bm{x}作为\bm{x}^*, 不断迭代\bm{x}^*和y_c^*, 直到y_c^*大于置信阈值{conf}_{min}并且大于所属向量\bm{y}在其他维上的取值, 则接收该条数据。迭代过程中随机改变当前\bm{x}^*的k个属性值来生成\bm{x}, 若该\bm{x}预测产生的y_c \ge y_c^*则用它更新\bm{x}^*和y_c^*, 此过程若连续{rej}_{max}次失败后则调整k值, 以调整搜索速度。
该算法的局限性 : 受限于inputs所处的空间。若该空间非常庞大(例如针对高分辨率的图像)则该算法可能失效。

基于统计的数据综合方法。参与者即可独立地基于这些统计属性生成相应的特征值。
带噪声的真实数据中存在攻击者可获取与target model训练数据相似的数据,并将其视为目标训练集的噪声版本以直接使用
综上所述,member inference attack模型的整体工作流程如下:
基于变量y的不同取值对攻击数据进行预处理和划分,在此过程中生成多个互斥的数据子集。每个子集分别对应一个类别,并被用来构建针对该类别的二分类模型。
当处理攻击样本(\bm{x}, y)时,请将目标模型对\bm{x}进行推理得到的结果\hat{y}一并提供给攻击模型作为其输入数据的一部分。
从而判断该样本是否属于目标模型所构建的数据集合。

在攻击模型中,其主要挑战在于:对于任意一个类别而言,在目标模型下生成的数据具有高度置信度地模拟了训练输入;同时非训练输入同样具备这一特性。其核心任务是区分这些训练输入与非训练输入。
Evaluation
实验设置
目标模型包括Google Prediction API(基于机器学习服务)、亚马逊机器学习(ML as a Service)以及基于Torch7框架在本地构建的神经网络模型。
实验设置要求:
- 各个目标模型及其对应的shadow模型的训练数据必须互不重叠;
- 各个model的训练集与测试集之间也必须完全分离;
- 数据集CIFAR通过设置不同的尺寸参数来评估神经网络在不同配置下的攻击准确性;
- 对于其他数据集(如Purchase、Texas hospital-stay、Adult、MNIST和Locations),在固定大小后仅评估Google Prediction API和亚马逊机器学习的表现;
- 特别地,在Purchase数据集中对Google Prediction API、亚马逊机器学习及神经网络均进行了攻击性测试以比较不同目标模型的效果。
该攻击方案的成功率为baseline accuracy = 0.5(基于从目标模型的训练集和测试集中随机等比例选取样本输入攻击模型进行查询)。需要注意的是,在对不同类别标签分别计算精确率(precision)和召回率(recall)时需特别注意各类别之间的差异性问题(因为各分类别的训练集规模及组成元素存在显著差异会导致各类别对应的攻击准确率有所变化)。\quad在CIFAR数据集上评估不同大小分类任务的表现:实验结果表明,目标模型拥有的类别数量越多,则攻击效果越显著。

2.用Purchase测试对Google Prediction API 、Amazon ML的攻击:

3.通过购买Google Prediction API、Amazon ML、Neural networks都进行测试任务

\quad

\quad
shadow训练数据的效果

\quad

\quad
类别数目与每类训练数据的数量对攻击效果具有重要影响。
基于图4的分析:
目标模型(以分类任务为例)的类别数目越多,则攻击效果越佳。
实验结果表明:
由于类别数目越多,则目标模型(如分类任务)的内部结构等关键信息可能越容易被攻击模型获取。
或许由于类别数目越多,则目标模型可能更容易过拟合训练数据。

通过进一步实验验证,每类中的训练样本数量越多 对 attack\ accuracy 会产生显著影响。然而实验结果表明这种做法会导致攻击性能的下降。

\quad
在不同数据集之间的对比研究表明:只有当目标模型(target model)在训练集与测试集上的预测精度差异显著时, 攻击模型(attack model)的效果才会更加显著;如果两者的表现接近,则难以明显优于基准模型(baseline)。研究者指出, 过拟合(overfitting)可能增强攻击模型的效果, 同样地, 过拟合也会导致目标模型在训练集与测试集上的预测精度出现较大差异。然而, 一些案例表明, 攻击效果不佳也可能与数据集中类别数量较少等因素有关。例如,在MNIST和Adult两个数据集中, 类别数量相对较少(尤其是后者仅有两类分类任务);这些情况可能导致攻击效果不佳的现象发生。

总而言之, 影响攻击效果的重要因素包括 target model 的过拟合、其 structure 和 type 以及训练数据集的 diversity。由此可见, 过拟合不仅会导致模型预测能力下降, 同时还可能泄露训练数据中的敏感信息。此外, 所提出的方法也可被视为一种新的指标来评估 target model 的隐私保护水平(或隐私泄露程度)。
M
Ref
[Precision 和 Recall] 是衡量机器学习模型性能的重要指标。该方法在测试集上的实验结果显示:Precision 值为 92.4%,Recall 值为 85.6%。攻击方法在 IEEE Symposium on Security and Privacy 会议中首次提出。
