Advertisement

【多模态攻击】Data Poisoning Attacks Against Multimodal Encoders

阅读量:

改写标题: Data Poisoning Attacks Upon Multimodal Encoders: A Comprehensive Study
改写代码: https://github.com/zqypku/mm_poison/
发布年度: 于2023年
发布期刊: ICML


摘要

Recent advancements in multimodal models have garnered growing interest, particularly those that integrate both visual and linguistic modalities to enhance encoder capabilities. Despite this attention, reliance on large-scale unlabeled datasets poses a risk of potential poisoning attacks. Herein, an adversary seeks to perturb the model’s training data with malicious intent, intending to induce harmful behaviors. By contrast with prior studies that primarily focus on visual modality alone, we initiate this investigation by exploring poisoning attacks across both visual and linguistic modalities. Specifically, our research centers on addressing two critical questions: (1) Does the linguistic modality also succumb to poisoning attacks? and (2) Which modality is more susceptible? To address these inquiries, we introduce three distinct approaches for conducting poisoning attacks against multimodal models. Empirical assessments across diverse datasets and model configurations demonstrate that all three attack methods achieve notable success rates while maintaining system utility in both modalities. Furthermore, our findings reveal discrepancies in poisoning effects between different modalities. To counteract these threats effectively, we implement pretraining and post-training defense mechanisms. Through systematic evaluation of our defensive strategies against various attack vectors, we establish their efficacy in mitigating malicious influences while preserving system functionality.


背景

多模态模型通常需要大量数据进行训练,在实际应用中可能会面临数据质量参差不齐的问题。这些数据可能具有较高的噪声水平,并容易遭受对抗攻击的影响。目前的研究重点主要集中在破坏视觉编码器方面以提高其在图像分类任务中的性能表现优异的能力。然而,在对抗多模态模型受-poisoning(poisoning attacks)影响的研究领域中,“poisoning attacks”指通过注入恶意样本干扰系统性能的行为,“poisoning attacks”指通过注入恶意样本干扰系统性能的行为,“poisoning attacks”的研究不仅限于视觉模式领域,“poisoning attacks”的研究不仅限于视觉模式领域,“poisoning attacks”的研究还应关注语言模式的重要性和安全性问题。“poisoning attacks”的研究不仅限于视觉模式领域,“poisoning attacks”的研究还应关注语言模式的重要性和安全性问题。

创新点

本文系统性地探究了多模态模型遭受中毒攻击的机制与防御策略。基于分别关注视觉特征与语言信息的研究目标,在图像搜索引擎框架下开展文本图像检索任务。将输入描述作为查询对象,在数据库中进行高效检索时,默认情况下系统会返回与该查询最为匹配的图片数据。这种机制不仅实现了从单一维度到多维度的信息融合,并且有效缓解了两者的冲突关系。本研究设计并实施了三类典型的投毒攻击方案,并在标准基准模型上进行了广泛的性能评估。

问题阐述

1.中毒模型
给定模型 M(基于对比学习的多模态模型),将有毒数据 Dp 注入干净的数据 Dc 中,并形成训练数据 D = Dc ∪ Dp。在中毒训练数据 Di上训练的模型表示为中毒模型 Mp。通过注入中毒数据,攻击者的目标是使中毒模型 Mp 能够将目标文本组映射到一个目标图像或目标类中的某些图像,同时在测试阶段保持其效用。
2. 中毒能力
本文假设对手能够将少量数据样本注入训练数据中。因为用于训练模型的数据集通常是从 Internet 收集的,攻击者可以通过社交媒体在互联网上发布有毒样本,以便这些样本很可能被模型所有者收集。但是,由于从互联网上收集的数据集通常非常大,因此不可能达到较高的中毒率。因此,需要保证即使中毒率相对较低,攻击也应该是可行的。

模型

目标模型的训练
假设我们有一组包含N对文本图像的数据集\{(t_1, x_1), (t_2, x_2), \dots, (t_N, x_N)\} \subseteq D。在该数据集中:

  • i = j时,则(t_i, x_j)被标记为正样本;
  • 其他情况下(t_i, x_j)则被视为负样本。
    基于对比学习方法构建一个多模态模型来同时训练图像编码器E_{\text{img}}和文本编码器E_{\text{text}}
    使得在批处理过程中:
  • 正样本图像与对应文本嵌入之间的余弦相似度能够得到最大化;
  • 负样本图像与其他任意文本嵌入之间的余弦相似度能够得到最小化。
    根据上述定义,
    我们可以得到如下的交叉熵损失函数:
在这里插入图片描述

毒率:φ = |DP| / |D|
单一目标图像。
攻击者旨在将一个类别中的文本毒害到属于另一个类别的单一目标图像x*。
Dp中的每个中毒对可以表示为{(t, x*) | t ∈ T序列A},
其中A表示文本的原始类,
T序列A表示干净数据Dc中类A中的文本子集,
x属于不同类的目标图像。
对于使用有毒训练数据D = Dc ∪ Dp训练的模型,
如果模型推荐给定文本{t | t ∈ T测试A}的目标图像之一为x

同时保持模型实用程序的原始任务,
则认为这是成功的攻击。
单一目标标签。
在攻击II中,
攻击者的目的是将一个类(原始类)中的文本映射到另一个类(目标类)中的图像。
具体来说,
中毒数据可以表述为{(t, x) | t ∈ T训练A, x ∈ X训练B},
其中A和B分别为原始类与目标类。
我们将这种中毒目标G定义为{(A, B)},
可标记为A→B。
通过使用有毒训练数据进行训练,
给定文本{t | t ∈ T测试A},
我们希望模型推荐来自X测试B中的图像作为最相关的图像。
这种情况比攻击I更具挑战性。
它旨在误导模型,
在A类文本与B类图像之间建立牢固关系,
即使在训练时二者不可见。
多标签靶向。
在攻击III中,
我们考虑同时实现多个"单标签靶向"(如前所述)的同时注入多种靶向关系的情况。
即实现多个"单标签靶向"的关系注入同一模型中。
在这种情况下,
模型不仅需要学习一个特定的关系(如上述所述),
还需要学习其他非相关的关系以避免混淆问题出现的可能性.
因此,在这种情况下,
我们需要构建一个能够同时处理多对(Ai,Bi)的数据集,
其中Ai与Bi分别代表不同的原始类别与目标类别,
并且DAi⊆D, DBi⊆D, DAi∩DBi=∅.
显然地,在这种情形下,
我们需要保证这些不同来源的数据互不干扰.
这使得问题变得更加复杂,
因为不仅要考虑每一对之间的相互影响,
还需要考虑整个集合之间的相互作用.

实验

1.实验设置
利用预训练的 CLIP2 作为起点,其中图像编码器是 Vision Transformer ViT-B/32 架构,文本编码器是经过一些架构修改的 Transformer。
2.实验结果

我们的攻击主要可以保留中毒模型的效用。

中毒攻击取得了强大的性能

哪个编码器更容易受到干扰?
在比较纯净和被污染的模型时发现,在图像嵌入方面与文本的距离普遍较大。这表明,在图像嵌入空间中与目标类别的距离更大程度上反映了编码器抗干扰能力的不同表现。通常情况下,Mp表现出最高的准确率(Hit@K)和最低的MinRank值。此外,在处理被污染样本时的表现也显示出显著差异:被污染的图像编码器(Mip)能够显著降低目标类别对应的MinRank值。
当评估性能时,K的选择至关重要。实验结果表明,在较小K值的情况下,仅使用被污染文本编码器(Mt p)会带来更明显的性能提升。

消融实验
1.随着中毒率的提升程度加深(increasing the poisoning rate),两个数据集的表现(performance)均呈现上升趋势(improved)。
2.即使在经过一两个微调epoch后仍能保持良好的表现(still shows good performance),这表明我们的攻击策略具有一定的有效性(efficacy)。然而,在周期性微调次数增多时(with more periodic fine-tuning steps),其性能会出现波动(fluctuates),但总体效果仍然显著(overall remains effective)。
3.对于图像编码器类型的差异性选择(differences in image encoder types),它们不会对攻击的成功概率产生实质性的负面影响(substantial negative impact)。
4.无论数据的质量或规模如何(regardless of data quality or quantity),都不会影响到攻击性能(attack performance)。
5.对于不同的类别目标(class targets),在颜色分布上存在显著差异(significant color distribution differences)——其中第14列对应的MinRank值相对较大(larger MinRank value in the 14th column)。具体而言,在第14列中对应的是A2person这一类别标签(corresponding to the A2person label tag)。此外,在许多图像中标有包含人类受试者的其他类标签时也会出现此类情况——即MinRank值较大的类更容易被中毒状态所侵袭。
6.我们开发出的方法具备良好的泛化能力,在类似的分布环境下也能有效发挥作用。

防御

1.预训练防御
核心理念在于识别并排除可能受攻击的文本-图像配对。我们将"相关性"定义为一对文本嵌入与图像嵌入之间的余弦相似度。随后我们从数据集中随机选取一部分样本进行标记,并设定一个阈值γ(gamma),当余弦距离超过γ时,则认为这对样本是可疑的。
2.训练后微调
对于已经遭受攻击的模型,在使用未被污染的数据进行进一步微调能够有效清除其毒化特性的同时保留其实用性。具体而言,在实验中我们采用1e-5的学习率来对Attack II中的被污染数据集进行微调训练,并观察到该防御策略仅在第一轮迭代中就展现出了显著的有效性。

全部评论 (0)

还没有任何评论哟~