Personalize Segment Anything Model with One Shot(PerSAM)
Customize the Segment Anything Model in a Single Shot
1 概述
PerSAM作为一种无需进行训练即可实现个性化的Segment Anything Model(SAM),其核心优势在于仅依赖于用户的输入即可完成模型定制过程。具体而言,在这一过程中系统将用户的图像信息与初步遮蔽信息相结合,并通过这些输入快速构建出一个高度定制化的模型框架。具体来说,在模型构建阶段系统首先利用预设位置上的编码器提取目标区域的关键特征;随后系统将这些特征与测试图像中的像素级相似度进行对比分析;在此基础上系统自动识别出两个关键点作为正负样本,并将它们转化为提示标记进而作为模型的位置先验信息;最后在解码阶段系统整合了三种创新性的技术方案以进一步优化模型性能
- Target-guided Attention 。我们通过基于特征相似性的计算来指导每个token在SAM解码器中的映射过程。这种机制迫使prompt tokens集中在前景目标区域,并促进有效的特征交互。
- Target-semantic Prompting 。为了为SAM提供更丰富的目标语义信息,我们将原始的初级提示token与目标对象的嵌入进行结合。这为解码器提供了更加充分的视觉线索,并实现了个性化的分割效果。
- Cascaded Post-refinement 。为了获得更精细的分割结果,我们采用了分步后处理优化策略。具体而言,在第一步中我们利用SAM生成初始掩码,在第二步中通过迭代优化逐步完善其分割质量。整个过程仅需额外100毫秒即可完成。

2 PerSAM

2-1 Training-free PerSAM
无需训练的PerSAM的整体流程如下:
基于用户提供的图像IR和掩码MR条件,在PerSAM中我们通过SAM获取了测试图像I上目标对象位置的先验信息。具体而言,在参考掩码MR的影响下,在测试图像I及其对应的初始区域图IR之间建立起了关联关系。随后,在参考掩码MR的作用下,在初始区域图FR中提取出与目标视觉概念相关的像素特征,并通过平均池化操作获得了全局视觉嵌入TR(即TR = Pooling(M_R ◦ FR),其中◦表示逐元素相乘)。在此基础上,在TR与测试图像特征FI之间计算得到了余弦相似度值S(即S = F_IT^T_R)。随后我们将这一位置先验信息应用于测试图像中,并将其作为提示输入到提示编码器中进行进一步处理。具体来说,则是根据计算所得的相似度图S实施的目标引导注意力机制(Target-guided Attention)。这一机制能够清晰地指示出在测试图像上哪些区域对应于目标视觉概念内的像素点分布情况。接着在这一前提下又提出了目的引导语义提示(Target-semantic Prompting)策略:即通过将模型对特定目标概念的语义理解融入到分割过程中以增强分割精度。

其中 Positive-negative Location Prior 被称为位置的正负先验(Positivity-Negativity Location Prior),而 Target-guided Attention 则被定义为以目标为导向的注意力机制(Target-Oriented Attention),此外 Target-semantic Prompting 也被提出作为一种基于语义提示的目标导向方法(Target-Semantic Prompting)

基于上述技术手段, 我们从SAM系统中提取了测试图像上的初始分割掩膜. 尽管这些初步结果可能存在背景区域的一些不平滑边界和孤立噪声点. 但仍有提升空间. 为此我们将采用分两步骤实施的方式对这一过程进行优化. 在第一步中我们将利用初始掩膜以及之前积累的正负位置先验来辅助SAM系统解码. 然后在第二步中根据第一步的结果确定一个边界框区域并将这一区域作为一个额外的位置先验信息输入到SAM系统中去. 因此该级联后处理方法不仅能够实现迭代优化过程而且具有较高的效率
2-2 Fine-tuning of PerSAM-F
为了实现适应性分割并生成适当比例的掩码,在本研究中我们引入了PerSAM-F这一微调变体。与无需训练的传统模型仅生成一个固定的掩码不同,在我们的方法中Sam解决方案的基础上输出三个不同比例的具体掩膜分别为M1 M2和M3。随后我们采用了两个可学习权重参数w1和w2并应用加权求和的方法来计算最终掩膜输出即M = w1·M1 + w2·M2 + (1 - w1 - w2)·M3;其中初始设定均为w1 = w2 = 1/3为了优化这些权重参数我们采用了参考图像进行一次微调并将预设的真实值视为目标值在此过程中我们采取了冻结整个Sam模型以保留其预训练知识仅对权重参数w1和w2进行优化以保证算法运行时间不超过十秒为了防止过拟合问题我们在训练过程中未引入任何可学习提示或适配器模块通过这种方法我们的PerSAM-F能够高效地学习出适用于不同视觉概念的最佳掩膜比例并展现出显著优于传统Sam模型的能力

3 Experimental

