自监督论文阅读笔记 Distilling Localization for Self-Supervised Representation Learning
在本文中,通过可视化和诊断分类错误,我们观察到当前的对比模型在定位前景目标 方面无效 ,限制 了它们提取 判别性的高级特征 的能力。这是因为视图生成过程 统一考虑图像中的像素 。
为了解决这个问题,本文提出了一种 数据驱动 的方法来 学习背景的不变性 。它首先估计图像中的 前景显著性,然后通过 将前景复制并粘贴到各种背景上来创建增强 。学习仍然遵循 实例区判别前置任务,因此 训练表示 忽略背景内容并专注于前景 。我们研究了多种显著性估计方法,发现大多数方法都可以改进对比学习。
视觉识别 已经通过 深度学习 以 集合大量标记数据 和 训练非常深的神经网络 的方式发生了革命性的变化。然而,监督信号的收集 ,特别是在非常大规模的情况下,受到预算和时间的限制。因此,人们对不受这种实际限制的自监督和无监督学习越来越感兴趣。
对于高级视觉识别,自监督学习中的先前方法定义了 不需要人工标记 但 编码有用的先验 的代理任务。用于目标识别的 自监督对比学习的最新进展 依赖于 实例辨别 的代理任务,其中 不变性 是从 空间裁剪 和 颜色抖动 等低级图像增强 中编码和学习的。
当前的自监督模型 缺乏****定位前景目标的能力 ,并且学习的表示 可以主要由背景像素决定。因为自监督学习 通常将每个空间位置视为同等重要 ,并且 神经网络 容易通过 利用意外信息 “作弊” 。因此,除非被迫这样做,否则不能指望网络发现目标。
本文假设 驱动定位的学习信号 来自于 类别级的****监督标签 ,因为背景内容(例如草、天空、水)通常 在不同类别之间共享,而前景目标 仅在同一类别中显著。
自监督模型和监督模型之间定位能力的差距促使我们探索 提取自监督表示的定位 的方法。
通过 首先 估计 每个训练图像的 前景显著性掩码 来研究这个问题。然后 通过 将前景目标粘贴到各种背景上 来使用训练图像及 其相应的显著映射图 来创建增强 。本文使用 不同背景上的同一目标的增强 进行 对比表示 学习。这鼓励 表征对背景保持不变,从而实现前景目标的定位 。
目标识别 受益于 更好的定位 ,并且本文的方法对于解决定位问题是有效的。由于其更好的定位能力,本文还在 PASCAL VOC 和 MSCOCO 上实现了 最先进的 目标检测迁移学习 结果。
Contributions :
● 最近的自监督对比学习模型的可视化研究表明了 定位目标的能力有限 。
● 一种数据驱动 的方法,提高了对比表示学习的定位能力,证明了它在图像分类和目标检测 迁移任务上的有效性。
● 研究用于 改善定位 的不同 显著性估计方法,包括传统显著性 和 网络预测显著性 。
无监督学习 旨在 在没有人工标签的情况下 提取语义上有意义的表示。自监督学习是无监督学习的一个子分支,它自动 从数据本身生成学习信号 。这些学习信号来源于 涉及语义图像理解 但不需要语义标签 进行训练的代理任务。
对比学习 是自监督学习的另一个有前途的工作方向。它通过 图像增强 以数据驱动 的方式实现不变性 。本文提出了一种用于 提取定位信息 的重要增强。
显著性估计 :估计 与人类感知一致的 感兴趣目标的位置 的任务。通常将 显著性saliency 视为 完整的前景目标 。
以前 基于非学习 的方法 依赖于手工制作的特征 并使用先验 来寻找显著目标区域。有用的先验包括背景先验、颜色对比先验和 objectness客观性。深度监督 方法 训练分割网络 以回归前景掩码,优于所有基于非学习的方法。无监督 学习方法 将多种基于非学习的方法集成到 噪声优化框架中,显示的结果与监督方法相当。
用于视觉识别的复制和粘贴 :一些工作 以复制和粘贴的方式 创建用于视觉识别的数据。这种方法生成的数据可能 看起来并不真实 ,但经过训练的模型可以很好地概括真实数据 。它们没有表明 发现目标 如何有助于识别。本文采用 自监督表示学习。本文的增强图像非常不切实际 ,但 为学习识别模型 提供了有用的信息 。
与能够定位显著对象的监督模型相比,自监督模型 (InstDisc、CMC、MoCo)从整体上看图像并且 容易被背景分散注意力 。
图像增强 :本文 首次引入 复制粘贴增强 到自监督学习。以解决自监督学习中无效的定位问题。
回顾对比学习 :无监督学习方法的有效性 在很大程度上取决于增强 T (·) 的类型,即 不改变目标本身的图像转换先验。

表1。无监督表示比监督表示 从增强中 获得了更高的分类准确性。这表明 增强中存在的先验 与 来自语义标签的建模线索****强烈重叠 。添加强烈的颜色抖动可以改善无监督表示,但会损害有监督的表示。这表明颜色抖动先验扩展到原始数据分布之外。添加 仅与语义 部分相关 的先验 可显著改善自监督学习。
可视化/诊断对比学习 :然而,在 可视化和分析 自监督模型的 错误模式 方面的工作很少,特别是在理解代理任务和语义标签之间的关系方面。
可视化方法 :
● 最近邻 :诊断特征学到了什么的一种直接方法是 在特征空间中找到最近邻。通过 识别使邻居彼此靠近的模式 ,我们可以深入了解这些特征代表什么。
● 类特定的梯度 :像素空间中 类别分数梯度 的大小提供了有关 像素对于分类的 重要性 的信息。对于弱监督目标定位非常有效。由于 自监督模型 没有目标分类器,我们 在提取的特征之上 训练线性分类器 。然后我们通过线性分类器和自监督网络的其余部分进行反向传播,以计算像素空间中的梯度。
调查的模型 :
• InstDist :将每个单独的实例视为一个类,并通过 内存库 实现的 非参数 分类 来学习表示。
• CMC :明确地将图像分离为 两个视图,即 亮度 和 颜色通道。学习遵循 最大化视图之间的互信息 。 • MoCo :遵循 InstDist 并进一步提出了 动量编码器 来 固定正样本之间的一致性 和 基于队列的内存 以实现可扩展性。
错误模式 :

图 2 。对于相当多的错误情况,query 与其最近邻之间的相似性主要存在于 它们的背景中 。因为自监督模型的显著区域分布在背景 而不是前景中。而监督模型显示了前景之间的相似性。
由于这些 自监督方法严重依赖增强来学习不变性 ,并且这些增强 平等地对待前景和背景 像素,因此它们不会强制执行 驱动模型发现目标 的损失。定位能力的缺乏 需要在自监督学习中 进行 显著区域建模 。
DiLo :通过 背景不变性 提取定位。学习一种可以从中 自动定位前景目标 的表示,从而可以 专注于判别区域 以提高识别率。本文 通过学习 背景不变性**** 来 提炼目标定位的能力。本文首先描述通过 显著性估计 提取前景区域的方法,然后通过 复制和粘贴操作 介绍本文的背景增强。
显著性掩码 应描述与目标分类最相关的区域。通常,它与前景目标区域重合。
传统 的显著性估计方法 使用手工制作 的特征,并依靠先验和启发式方法来找到图像中的主要目标。有用的先验包括背景先验(图像边界上的像素更可能是背景)和 颜色对比度先验(高对比度的边缘往往属于前景)。

图 3 。传统方法 充满噪声,而 网络产生的显著性要 干净得多。来自预训练网络的 特定类别显著性 往往在判别区域周围更加紧凑 。这表明 使用全前景显着性可能并不理想 。
对于粘贴 ,本文研究了三种技术:直接将前景目标复制到背景上,在目标边界上使用高斯混合进行复制,以及两种方法的混合。
考虑上下文 :上下文在识别目标中起着重要作用。尽管目标的周围环境可能不是识别的最具辨别力的区域,但它可能 有助于修剪候选集 。为了在增强过程中考虑到这一点,本文设置了 保留原始完整图像 而不进行复制和粘贴增强的概率。
集成其他增强功能 。复制粘贴增强与其他先前的增强正交,因此相对于其他增强的顺序无关紧要。在我们的实现中,我们 首先进行复制粘贴增强 来替换背景,然后执行其他增强。
更好的显著性转化为更好的表示。
只有 30% 到 50% 的图像接收复制和粘贴,我们将性能显着提高了 2% - 4%。总是使用 复制粘贴增强会损害性能 。
混合blending 将性能略微提高了约 0.4%。这种差异可能是因为 检测需要真实的边界 ,这会阻止网络走捷径,而对于分类,边界作弊并不那么重要。
数据驱动增强 驱动 模型学习自动定位目标 。这种定位导致更好的识别性能。性能改进是由于更好的定位 和背景不变性 。
两种错误模式 :
• 多个目标 出现在单个图像中,本文的模型在聚焦位置上做出了错误的决定。
• 测试图像属于细粒度类别 ,没有标签很难识别。
当图像中出现多个目标 或 目标属于细粒度类别 时,模型会发现困难。
从 BasNet 估计的前景掩码比 RBD 更有益。结果表明,DiLo 与之前的对比学习工作是正交 的。
Conclusion :
本文发现自监督模型无法定位前景目标 。提出了一种简单的数据驱动 方法,通过学习背景不变性来提取定位 。我们在 ImageNet 分类及在PASCAL VOC 2007 上的目标检测的转移性能方面取得了很好的成果。
自监督表示学习的定位问题很普遍。然而,本文的方法可能不是解决这个定位问题的理想方法。我们有兴趣找到一个聪明的“代理任务”来帮助 提炼定位能力。
