《ASAM: Boosting Segment Anything Model with Adversarial Tuning》论文阅读
论文泛读
《ASAM: 提升段 anything 模型的对抗调优方法》论文
李老师扩散模型教学
ASAM 论文英译
ASAM 论文概述1
ASAM 论文概述2
摘要
该模型由 Meta AI 开发,在图像分割领域展现出卓越的能力。
然而,在一些特定的应用领域中存在一定的局限性。
尽管 SAM 具备强大的图像分割能力,并可以在无特定领域训练的情况下适用于多种图像分割任务,
但在处理一些特殊或专业领域的图像分割任务时,
它的表现可能不如那些专门为此类任务定制与训练的模型。
这些专业领域可能包括医学成像、遥感图像分析等,
其中对象的边界与类别定义往往更为复杂或具有特定要求。
研究者们致力于寻找一种解决方案来改善 SAM 在这些特定场景中的性能表现,
同时又不会削弱它原本的优势——即能够适应各种不同类型的图像分割任务的能力。
Segment Anything Model (SAM) 突然崭露头角,在图像分割领域掀起一股新风潮。该模型通过在海量视觉语料库里进行训练(包含超过十亿张经过标注指定区域(即掩码)的图像样本),展现了卓越的表现力与泛化能力。尽管 SAM 的性能令人瞩目,但它仍有待进一步优化提升的空间 。
SAM 是一个经过庞大视觉数据集训练的模型,在这一领域的发展中扮演着关键角色。这个数据集包含了超过十亿张经过标注指定区域(即掩码)的图像样本,在指导模型学习识别与分割不同物体方面发挥着重要作用。通过如此规模的数据集进行训练后,SAM 不仅能够处理常见的、简单的分割任务,而且能够在复杂多变的环境中准确识别并分割出不同类型的物体与结构.这种灵活且强大的能力使得 SAM 在无需针对特定类别或环境进行专门优化的情况下,就能广泛适应各种应用场景.可以说,SAM 完全改变了这一领域的现状,为研究与应用带来了前所未有的可能性.
一个重要的研究方向是识别 SAM 在特定领域中的下游任务中的局限性,并研发相应的技术和方法以优化效率和效果。
已有诸多技术被设计为专门针对特定下游任务的应用方案之一便是微调与适配器模块组合,在这一架构下 SAM 被设计为专门针对特定下游任务的应用方案,在这一架构下 SAM 的性能得到了显著提升。
尽管通过微调能够显著提升其在特定任务中的性能,
但这种做法可能会削弱其原有的泛化能力。
值得注意的是,
迁移学习技术指的是在已有的训练基础上,
通过引入新的数据集来适应新的需求,
这种方法可以帮助减少计算资源的需求,
因为无需重新训练整个模型结构。
替代方案继承了 SAM 的原始参数,并在结构中增添了适配层或后处理模块。尽管这些方法在性能上表现良好,但它们仍需引入额外的参数以及附有注释的训练数据以实现预期效果,在一定程度上限制了其扩展性和效率
为了进一步提高 SAM 作为基础视觉模型的能力, 同时不需修改其基础架构并保留其零样本能力
释放 SAM 的潜力,同时保持其在视觉任务中的广泛适用性。
从 NLP 领域中汲取灵感。NLP 中对抗训练 (AT) 取得的独特成功 为我们提供了一个新的视角。 NLP 中的 AT 不仅增强了模型鲁棒性,还同时提高了泛化能力和准确性 。因为自然语言中的对抗性示例与现实世界的文本场景(例如常见的人类拼写错误)更接近。我们推测,对抗性训练在 NLP 中的成功源于其生成的对抗性示例的“真实性”和“自然性”。
在自然语言处理(NLP)领域,对抗训练 AT 取得的独特成功指的是这种方法在提高模型鲁棒性和泛化能力方面所展现出来的显著效果。对抗训练是一种通过引入对抗样本——即经过精心设计、旨在误导模型的输入数据——来增强模型性能的技术。
生成的对抗样本是指那些经过精心设计、旨在误导或挑战机器学习模型的输入文本。这些样本通常是在原始合法数据的基础上进行微小但有针对性的修改,目的是让模型产生错误的输出,而这些修改对于人类来说往往是难以察觉或者不会影响理解的。
我们正在深入探讨将具备显著成效的对抗性训练技术整合到 SAM 这类视觉基础模型中去的可能性,并致力于通过融合多学科思路来优化计算机视觉领域的特定应用场景。
将上述概念应用于 SAM,在模仿 NLP 领域中‘天然’对抗样本的方式下优化视觉基础模型
采用这些更"自然"的对抗样本对 SAM 进行精细微调, 以减少传统对抗训练通常带来的高成本.
传统的视觉抗干扰样本生成策略通常会对图像进行不完全自然的扰动,并显示出在不同领域间的偏差。这种现象导致所生成的抗干扰样本在面对真实世界场景时无法准确识别其潜在威胁或特征
我们致力于通过生成模型来创建既具有挑战性又具创造性的抗 adversarial samples 来调节 SAM 的性能参数。这一研究灵感源自近期关于抗 adversarial 攻击机制的新进展观察,并基于以下假设:即存在一种方法能够将复杂但真实的自然图像投射到一个简化后的空间中进行处理。这个简化后的空间被称为"low-dimensional manifold"(低维流形),它保留了所有关键的内容特征与细节信息。通过对这种空间中的图像进行微调处理,在不破坏其原始外观的前提下创造新的视觉效果是可能实现的——特别是那些被设计用于测试目标模型性能的具体样本就属于此类情况。
在反向映射过程中保持物体形状与原始分割掩码标签的一致性,在生成模型中通过在生成模型中添加一个额外的“掩码提示分支”组件来实现这一目标。这种集成不仅确保对抗性示例真实对齐目标区域,并且能够准确对应其原始分割掩码标签。通过微调大型视觉模型中的关键参数子集,并利用这些自然逼真且精确对齐的对抗性示例进行训练优化,在性能提升方面取得了显著的效果。
论文贡献
我们从自然语言处理(NLP)领域借鉴了一些成功的经验,并创造了一种新的训练方法,叫做"对抗性调优".该方法的主要目标是使像SAM这样的视觉模型变得更加智能灵活,以便更好地应对未曾见过的新情况或挑战.此外,这种方法还结合了不同学科的知识,从而用于解决计算机在理解图片时遇到的问题.
为了测试和改进模型(生成模型),我们使用了一种特殊的工具(生成模型)把真实的图像转换成简化版本,并在此基础上创建了一些看起来非常真实但对模型有挑战性的新图像(对抗样本)。 为了确保这些对抗样本中的物体仍然看起来像原来的物体,在生成过程中特别注意保持它们的形状和位置不变。
通过我们采用的方法,在从来自SA-1B数据集中精选出约1%的高质量'自然式'对抗样本训练SAM模型的基础上进行微调优化后得到了性能更优的ASAM模型。为了全面评估其性能优势,我们采用了多维度的数据统计分析以及视觉观察方法来进行测试与评估。结果显示,在多个图像分割基准测试中以及多个相关应用领域中,在分类准确率、计算效率等多个关键指标上都明显超越了原始SAM模型的表现。

相关工作
1、SAM
Meta Research团队推出了"Segment Anything"项目。该项目开发了SAM模型及其配套的数据集SA-1B(包含超过十亿张经过授权使用并符合隐私政策的图像上的蒙版)。该数据集涵盖了超过十亿个经过授权使用并符合隐私政策的具体像素标记实例 SAM专为提示式分割任务设计,并能实现零样本适应于新的图像分布及目标. 定义: 蒙版是用于标识特定类别或对象像素的概念,在图像分割中发挥重要作用. 每个蒙版通常是一个与原始图片尺寸相同的二值图或标签图.
尽管 SAM 的能力令人留下深刻印象, 它在现实场景(如医学图像和其他具有挑战性的分割条件)中的有效性仍然是研究的重点。当需要分割微小而细长的对象, 边界模糊的对象以及伪装的对象时, 它往往难以应对, 特别是对透明对象的处理就显得尤为棘手。
与大多数基础模型相同的是SAM同样具备进一步提升的空间。为了应对这些挑战,研究人员采用了多种不同的方法。
一些研究已提出了一种相对简单的微调方法来定制SAM,并将其应用于一般性的医学图像分割任务。通过对3D和2D分割任务的系统性评估与比较分析(即严格实验),研究发现MedSAM在性能上显著优于未经微调的传统SAM。尽管通过微调可以在特定领域中提升SAM的表现效果显著(即释放其潜在优势),但这种优化是以牺牲模型原有的泛化能力为代价。(注:泛化能力指的是模型在未见过的数据或不同领域内表现的能力)经过这一过程后,在面对未曾见过的数据或跨领域的应用时(即未见过的数据或不同领域内的任务),模型的表现可能会有所下降。
基于领域特定的信息或视觉提示,并引入一种简单的且高效的适配器来提升分割性能。
该方法通过整合了任务领域的知识并结合大型模型的一般知识后(即整合了通用特征提取能力),能够显著提升其在复杂任务中的性能水平。
然而,在实际应用中需要额外参数以及标注数据的情况下(即带注释的训练数据),这使得算法在扩展性和计算效率方面存在一定的局限性。
我们的方法与现有方法有所区别,并旨在进一步提升 SAM 作为基础视觉模型的泛化能力。我们力求在无需依赖大量额外数据、无需改变其架构或无需损害其零样本能力的前提下实现这一目标。
2、对抗样本和对抗训练 AE&AT
在计算机视觉领域中
与之相比,在NLP领域呈现出了不同的发展态势。AT被发现后不仅能够提升语言模型的泛化能力,而且对强化模型的鲁棒性发挥了一定作用。最新的研究表明,AT不仅能够提高还能够进一步优化基于Transformer的语言基础模型的性能
试图借鉴NLP领域中已有的成功方法来提升视觉特征的能力。
然而这些人工对抗样本中的干扰项并非完全天然地产生,并与其在真实世界环境中的干扰源存在明显差别。
在本文中,我们相信对抗训练(AT)在自然语言处理(NLP)领域取得胜利的原因在于其对抗性示例的真实性和自然属性。值得注意的是,在视觉任务领域中曾经有人尝试过利用AT来提升干净准确率。受NLP领域的启发与影响,在这里我们提出了一个创新性的框架ASAM(Adaptive Synthetic Adversarial Models),通过使用具有真实性和自然属性的对抗性示例对SAM(Synthetic Attention Models)进行重新训练(retraining)。这种方法开创性地为增强视觉基础模型提供了一条新路径(途径),通过利用对抗性示例的真实性和自然属性来提升其泛化能力(capacity),无需大幅增加数据量或进行重大的架构修改(modification)。
实验方法
总体目标
- 基于 SA-1B 数据集制作"天然"对抗图像:旨在利用现有的大规模图像与遮罩数据集创造出兼具抗性又具自然外观的图像。
- 微调 SAM 而非修改其架构并无需额外注释数据:在保持原有模型架构的同时通过这些对抗样本提升模型性能。
ASAM框架概述:包含两个主要步骤

在本文中,为了生成既自然又逼真的对抗性示例以改进 SAM,我们假设可以通过生成器(如 Stable Diffusion)将自然图像投影到低维流形上。随后,通过优化潜在空间,我们能够寻找到合适的对抗性潜在表示,从而实现有效的重投影到自然图像域中。**Stable Diffusion 是一种基于深度学习的生成模型。**它的运作机制是通过逐步注入噪声来破坏训练数据(通常是图像),然后学习一个逆向推导过程,即从纯噪声中逐步去除噪声以重建清晰的图像。**这个过程被称为"扩散",而"稳定"则指该模型在生成过程中保持了较好的稳定性,能够产出高质量、多样化的图像。***
可控抗干扰样本生成是一种优化过程
在这一过程中,在潜在表示中加入了一定强度的小幅调整。这可能导致简单的重投影视图难以准确对应原有的SA-1B掩模。为此,在完成优化后我们引入了一种控制机制——该机制基于ControlNet技术来指导重投影视图的过程。这种措施确保即使进行了微小干扰处理后...
总结:
我们提出的 ASAM 框架旨在构建一种创新性的架构方案。具体而言,在第一步中,我们将输入图像投射至潜在空间,随后通过对抗技术优化潜在空间的位置.接着,在第二步中,我们利用优化后的潜在空间生成受掩码控制影响的对抗样本.最后,我们采用上述方法生成的数据对 SAM 进行微调训练.
**最终,我们通过自动生成的方式实现了对SAM模型的有效微调.这一过程之所以能够成功,正是因为所使用的样本是在不改变模型结构并无需额外标注数据的情况下自动生成的.这样一来,SAM便能够在各种实际应用场景中展现出更强的表现力,同时仍然能够保持其零示例分割的能力.
实验结果
经过微调的 ASAM 在各种分割任务中呈现出了明显的提升,在无需额外的数据或架构进行调整的情况下表现出色。 经过全面评估的结果表明,在分割任务中 ASAM 树立了新的性能标准,并为计算机视觉基础模型的发展提供了重要支持。

零样本分割(Zero-Label Segmentation, ZSS):零样本分割是指模型能够在未曾接触过的类别的像素级分割任务中获得精确的结果。换句话说,在完成训练任务后,该模型不仅能够识别并划分训练数据中出现过的对象类别,并且还需要具备泛化能力以应对未曾接触过的对象类别。
平均交并比(mean Intersection over Union, mIoU):mIoU是一种广泛应用于评估图像分割模型性能的关键指标。该指标通过计算预测分割区域与真实标注区域之间的重叠区域面积与并集区域面积的比例来衡量模型性能,并将各个类别上的计算结果取平均值以获得总体评估值。
DAT Tuning指的是通过离散抗 Distortions(DD)(Discrete Antidistortions)方法对SAM模型进行优化调整。
PGD Tuning指的是采用Projected Gradient Descent (PGD)方法对SAM模型实施对抗性训练。
DatasetDM是指利用A/B测试方法对特定数据集分布进行匹配以优化SAM模型性能。
为了检验ASAM的有效性,研究团队将其与其他四个不同类型的方案进行了对比分析,并列出了这些方案的具体内容.
原始SAM定义为未经专门优化的基础模型。DAT调优是一种基于离散对抗训练的微调过程。PGD调优是一种基于投影梯度下降算法的生成对抗样本训练过程中的参数优化步骤。DatasetDM是指通过与特定数据集分布匹配的技术手段来优化和调整SAM的过程。
ASAM展现出卓越的优势

通过 ASAM 引入的扰动是一种天然的方式,而其他方法(如 DAT 和 PGD 调整法)通常采取更为人工的修改策略.采用这种方式产生的扰动,能够模拟出贴近真实环境并具挑战性的样本,从而有助于提升模型在复杂实际场景下的表现.

结论
本研究引入的ASAM展示了SAM通过创新应用对抗性调整所取得的重要进展。我们利用稳定的扩散模型对SA-1B数据集中的部分样本进行了增强处理,并成功生成了具有自然特性和逼真程度高的对抗性图像。这些改进使SAM在各类任务中的分割性能得到了显著提升。这种方法借鉴于NLP领域中的对抗性训练方法,在提升SAM性能的同时保留了其原有的架构特点以及零样本优势。研究结果表明,在分割任务方面ASAM设立了新的基准标准;同时这一改进也有助于推动抗arial示例在计算机视觉领域的广泛应用与深入理解;更重要的是这种方法为提高大型视觉基础模型的能力提供了一种既新颖又有效的解决方案
