[论文笔记]Circle Loss: A Unified Perspective of Pair Similarity Optimization

阅读量：

总结
本文提出了一种新的深度特征学习损失函数——Circle Loss。通过对每个相似度评分进行加权调整，Circle Loss实现了对相似性和不相似性的动态优化，并确保了明确的收敛目标。
主要贡献
统一视角：从相似性优化的角度分析了基于类级标签的学习和基于对的标签的学习两种基本范式，并提出了一个统一的损失函数框架。
Circle Loss：通过引入加权因子αn和αp对每个相似度评分进行调整（公式4），允许不同相似度评分以不同的速度被优化。这种加权策略增强了灵活性，并使决策边界成为一个圆弧（公式7），具有明确的收敛目标。
实验验证：实验结果表明，在多种面部识别任务中，Circle Loss展示了更高的鲁棒性和更好的性能。
关键点
动态加权：每个相似度评分根据其当前状态被赋予不同的权重因子。
明确收敛目标：决策边界为圆形，确保分类状态更为明确。
灵活性增强：梯度自动衰减机制使优化过程更加温和高效。
结论
Circle Loss提供了一种简单而有效的深度特征学习框架，在保持高效的同时提升了模型性能和稳定性。

引言

为了深入研究CoSENT损失函数的相关内容，并计划今天通读全文Circle Loss: A Unified Perspective of Pair Similarity Optimization

为了简单，下文中以翻译的口吻记录，比如替换"作者"为"我们"。

本文研究了深度特征学习中成对相似度优化的问题，并提出了一种新的优化方法以提升模型性能。具体而言，在该问题框架下，我们旨在使同类样本间的相似度 $s_p$ 最大化同时使异类样本间的相似度 $s_n$ 最小化。通过分析现有方法如三元组损失和软最大交叉熵损失的共同特点——即它们均将这两个指标整合进相关的损失函数设计中——我们发现存在以下不足：现有方法在设计时采用了相同的惩罚权重来处理两类样本之间的差异关系，在这种情况下如果某类别的样本间差异偏离最优值较远，则可能会影响模型的学习效果。针对这一问题，在具体实现时我们采取了一种简单的策略——即根据各分类任务需求动态地调整各类别之间的差异权重系数，在这种机制下能够更加灵活地关注那些尚未达到理想状态的差异关系类别。基于上述改进思路所提出的Circle Loss这一新方法具有显著的优势：首先其名称来源于其在决策边界上呈现出圆形特性的特点；其次它能够统一适用于基于类标签以及基于对比标签两种基本范式的深度特征学习任务；最后通过对相关数学推导的结果表明：相较于仅基于 $(s_n - s_p)$ 差值进行优化的传统方法来说,Circle Loss提供了一种更为明确且稳定的优化方向

1. 总体介绍

图1展示了不同优化策略对 $(s_n - s_p)$ 以及 $(\alpha_n s_n - \alpha_p s_p)$ 的缩减效果的比较。(a) 在使用 $s_n$ 与 $s_p$ 梯度大小相同的策略时（如A、B、C选项），可能会导致优化过程缺乏灵活性（决策边界上的T和T'点均被视为可接受）。(b) 采用基于 $\alpha$ 加权后的策略时（如Circle损失），通过动态调整 $s_p$ 与 $s_n$ 的梯度强度实现了更为灵活的优化过程。对于A选项而言，该方法倾向于增强 $s_p$ ；而对于B选项，则倾向于减弱 $s_n$ 。此外，在使用Circle损失时会更倾向于在圆形决策边界上的特定收敛点T处实现稳定收敛，并明确设定收敛目标点。

本研究从相似性优化的角度分析了两类基本的深度特征学习方法：一类是基于类别标签的数据学习机制；另一类则是基于对比标签的数据学习机制。前者通过分类损失函数（如软最大交叉熵损失）来提升样本与权重向量之间的相关性；后者则利用度量损失函数（如三元组损失）来增强样本间的关联程度。就我们的认识而言，在本质上这两种学习方法并无显著差异；它们的目标均在于最小化类别间的相似性 $s_n$ 并最大化类别内部的 $s_p$ 。

通过这一视角分析可以看出我们观察到多种流行的损失函数展现出相似的优化轨迹。这些方法都致力于将两个变量嵌入到相似配对中并追求降低它们之间的差额。在计算差额时在保持其他条件不变的情况下提高其中一个变量相当于降低另一个变量的变化幅度基于此观察在当前的对称优化策略下存在两个主要问题：

优化灵活性不足 对 $s_n$ 和 $s_p$ 的惩罚强度被限制为相等。给定的损失函数中，关于 $s_n$ 和 $s_p$ 的梯度具有相同的幅度(amplitudes)。在一些特殊情况下，例如，当 $s_p$ 很小而 $s_n$ 已经接近0(图1a中的A)，它仍然以较大的梯度对 $s_n$ 进行惩罚。这种做法既低效又不合理。
收敛状态模糊 优化 $s_n - s_p$ 通常会导致决策边界为 $s_p - s_n = m$ （其中 $m$ 是间隔margin）。这个决策边界允许收敛状态存在模糊性(例如，图1(a)中的 $T$ 和 $T^\prime$ )。例如， $T$ 的 $\{s_n, s_p\} = \{0.2, 0.5\}$ ，而 $T^\prime$ 的 $\{s_n^\prime, s_p^\prime\} = \{0.4, 0.7\}$ 。它们都获得了间隔 $m = 0.3$ 。然而，比较它们之间的差距，我们发现 $s_n^\prime$ 和 $s_p$ 之间的差距只有 0.1。因此，模糊的收敛状态削弱了特征空间的可分性。

基于这些观察结果表明：相似度评分之间应有不同的惩罚强度。具体而言，在实际应用中我们发现如果一个相似度评分与最优值之间的差距较大，则对其施加更强的惩罚效果能够提升整体性能；而当某个评分已经接近最优时，则应当采用更为温和的方式对其进行优化调整以避免过度调整带来的负面影响。为此我们可以将其扩展为αn sn - αp sp的形式其中αn和αp分别作为独立的加权因子用于控制不同维度的变化速度从而实现更加灵活的学习机制接着我们将这两个加权因子设定为其与各自维度直接呈线性关系即αn = k1 sn + b1和αp = k2 sp + b2这种设定不仅能够适应当前优化状态还能通过动态调整权重使得模型在训练过程中始终保持良好的收敛特性最终经过这样的优化设计后在(sn sp)空间中满足αn sn - αp sp = m的所有点将构成一个圆形决策边界因此我们将这一新的损失函数命名为Circle Loss

Circle损失具备简单特点，在基于这三大方面重新塑造了深度特征学习的属性。

其次，在一致性的损失函数设计上

在训练过程中，在反向传播的过程中，在处理第 $n$ 个样本（或第 $p$ 个样本）时，在计算其梯度值时会将其放大至相应的倍数——即系数$\alpha_n（或\alpha_p））。经过计算发现，在优化效果不佳的情况下，在某些相似性分数上会赋予更高的权重系数；这会导致这些位置上的梯度值增大。从图1(b)可以看出的是三种不同的样本类别A、B和C各自所采用的优化策略存在显著差异

第三部分，清晰的目标状态

本文的主要贡献总结如下：

Circle 损失被提出为一种简化的深度特征学习损失函数。通过赋予每个相似度得分适当的权重,Circle 损失通过促进灵活优化框架和提供明确收敛目标来提升深度特征学习的效果。

该Circle损失在类级与对比标签兼容性方面具有显著表现，并且在微小修改后可退化为三元组损失或软最大交叉熵损失等替代形式。

我们对多种深度特征学习任务展开了全面的实验研究，在包括人脸识别、人员重识别以及汽车图像检索在内的多个领域进行了广泛深入的探索。通过这些任务可以看出，Circle损失函数的表现与现有先进方法相媲美。

2. 统一的视角

深度特征学习的主要目标在于追求同类内部的最大相似性和不同类别之间的最小相似性。通过使用余弦类似度进行计算后, 我们预期s_p将趋近于1, 并使s_n趋近于零。

为此

本文以一种统一的角度分析这两种学习方法，在无需偏向于基于代理基的方法或仅基于对比相似度的前提下展开讨论。在特征空间中取一个样本x，在样本x所在的特征空间中存在K个类内相似度得分和L个类间相似度得分。分别用{ s_p^i }（i=1,2,…,K）和{ s_n^j }（j=1,2,…,L）来表示这些相似度分数。

为了使每个 $s_n^j$ 最小化及使每个 $s_p^i$ 最大化（对于所有 $i \in \{1, 2, \dots, K\}$ 且 $j \in \{1, 2, \dots, L$ }}），提出一个统一损失函数用于

该损失函数通过累加多个指数项来计算其值。
具体而言，
它遍历每一个相似度对 $(s_n^j, s_p^i)$ 以减少 $(s_n^j - s_p^i)$ 。
其中 $\gamma$ 是一个缩放因子，
它用于调节相似度变化的程度。
而 $m$ 被引入是为了更好地进行相似度分离并设置一个间隔。
我们注意到，在适当简化的情况下该损失函数能够退化为三元组损失或分类损失。

基于预设类别标签，在分类层次中对输入变量 $x$ 与其对应的权重向量 $w_{i}$ （其中 $i=1,2,\cdots,N$ ）之间的相似性进行评估。（这里 $N$ 表示训练阶段的类别总数）

具体而言，在获得类间相似度评分方面，则通过以下方式获取 $(N - 1)$ 个评分： $s_n^j = w_j^T x / (||w_j|| \cdot ||x||)$ （其中 $w_j$ 表示第 $j$ 个非目标权重向量）。此外，在计算类内相似度得分时，则采用 $s_p = w_y^T x / (||w_y|| \cdot ||x||)$ 的方式。基于此基础下，在公式 (1) 中退化出的损失函数即为AM-Softmax损失函数（AM-SOFTMAX LOSS），它是SOFTMAX交叉熵损失函数的一个重要变体。

\begin{array}{c} {\mathcal{L}_{a m} = \log [1 + \sum_{j=1}^{N - 1}\exp (\gamma (s_n^j + m)) \cdot \exp (- \gamma s_p)] } \\ {= - \log \displaystyle \frac{\exp (\gamma (s_p - m))}{\exp (\gamma (s_p - m)) + \sum _{j=1}^{N - 1}\exp (\gamma s_n^j)}. } \end{array}

（2）
当参数 $m$ 设为零时，则在公式（2）中进一步简化出NormFace损失函数形式。

给定对比标签

图2展示了损失函数梯度的变化情况。（a）图显示Triplet Loss的表现。（b）图展示了AM-Softmax Loss的表现。（c）图则呈现了Circle Loss的特点。Triplet Loss和AM-Softmax Loss均显示出优化能力的局限性。Triplet Loss中的类内相似程度 $s_p$ （左端）与类间相似程度 $s_n$ （右端）均受到严格控制并导致突降现象（如B点附近）。例如，在类别内相似程度较高的区域（A点），Triplet Loss并未体现出足够的惩罚力度。此外，在分类边界上这两者所处的位置具有平行关系，这使得分类决策呈现出模糊性。相比之下,Circle Loss采用了一种基于距离差异的不同惩罚机制。当类内相似程度 $s_p$ 较大时, Circle Loss会对 $s_n$ 进行更强烈的惩罚;而当类间相似程度 $s_n$ 显著降低时,则会相应减少对这一项的惩罚力度,从而实现更为合理的分类约束。Circle Loss凭借其独特的圆形决策边界特性,在分类任务中实现了较为精确的收敛状态

梯度研究 。如公式（2）和（3）所示，在某些特定条件下这些损失类型包括三元组损失、Softmax 损失及其若干变体等，并且它们都可以被视为基线模型公式的特例形式。值得注意的是，在单一情况下仅存在一个 $s_p$ 和 $s_n$ 时，在图2(a)和(b)中我们进行了梯度可视化展示，并在此基础上得出了以下几点观察：

首先，在损失函数达到决策边界之前（当其梯度消失时），关于 $s_p$ 和 $s_n$ 的梯度值是相等的。状态 A 的 $\{s_n, s_p\} = \{0.8, 0.8\}$ 表明类内数据点之间的紧凑性较好。然而，在这种情况下，尽管 $s_p$ 受到较大的梯度影响，但优化过程仍表现出一定的灵活性不足。
其次，在优化过程中，梯度值基本上维持恒定状态，在达到收敛点后突然急剧下降。状态 B 相对于 A 更接近于决策边界，并且能够更好地被优化过程所适应。然而需要注意的是，无论是采用三元组损失还是 AM-Softmax 损失方法，在对 A 和 B 施加惩罚方面表现得较为一致。
第三，在分类器设计中，默认设置的决策边界是一条与方程 $s_n - s_p = m$ 对应的平行直线。这一设定意味着达到该边界的任意两点（例如图1中的 $T$ 和 $T^\prime$ ）都具有相同的相似性差距 $m$ ，因此从优化角度来看它们所面临的挑战难度是相等的。换句话说，在最小化目标函数的过程中，并没有偏向于任何一个特定点 $T^\prime^\prime^\prime^\prime^\prime^\prime^\prime^\prime^\prime^\prime$ , 而容易导致分类器出现模糊的收敛结果。

这些问题源于最小化 $s_n - s_p$ 的优化方式，其中减少 $s_n$ 等同于增加 $s_p$ 。

3. 一个新的损失函数

3.1 自适应加权

我们探讨了赋予每个相似度评分在其当前优化状态下以不同速率学习的能力，并以此来增强整体优化的灵活性。接下来，我们首先不考虑公式 (1) 中的间隔项 $m$ ，并进而将其统一损失函数转换为Circle损失函数的一种方法。

该公式展示了基于环形结构的对数似然函数的具体计算方法。
具体而言，
等价于：
$\mathcal{L}_{\text{circle}} = \log\left[1 + \sum_{i=1}^{K}\sum_{j=1}^{L}\exp\left( \gamma (\alpha_n^j s_n^j - \alpha_p^i s_p^i ) \right) \right]$
进一步可分解为：
$\mathcal{L}_{\text{circle}} = \log\left[ 1 + \sum_{j=1}^{L}\exp(\gamma \alpha_n^j s_n^j ) \cdot \sum_{i=1}^{K}\exp(-\gamma \alpha_p^i s_p^i ) \right]$
其中，
$\gamma$ 表示权重系数，
$\alpha_n^j, s_n^j$ 分别代表正样本特征向量及其对应的权重，
而 $\alpha_p^i, s_p^i$ 则是负样本特征向量及其对应的权重。
该公式展示了基于环形结构的对数似然函数的具体计算方法。

其中 $\alpha_{n}^{j}$ 和 $\alpha_{p}^{i}$ 是非负的加权因子。

公式 (4) 通过推广 $(s_n^js_n^j - s_p^is_p^i)$ 从公式 (1) 获得，在训练过程中, 关于该项的梯度当反向传播时会乘以相应的系数. 当相似度评分偏离最佳状态（例如 $O_n$ 对应 $s_n^j$ , $O_p$ 对应 $s_p^i$ ）时, 应该赋予较大的权重因子, 以便通过较大的梯度实现有效的更新. 因此, 我们采用自适应的方式定义了 $\alpha_p^i$ 和 $\alpha_n^j$

$\left\{\begin{array}{l l}{\alpha_{p}^{i}=[O_{p}-s_{p}^{i}]_{+},}\\ {\alpha_{n}^{j}=[s_{n}^{j}-O_{n}]_{+},}\end{array}\right. \tag 5$

其中 $[\cdot]_{+}$ 是零截断操作，以确保 $\alpha_{p}^{i}$ 和 $\alpha_{n}^{j}$ 为非负值。

本节讨论在监督学习框架下余弦相似度重新缩放作为一种现代分类损失函数的应用及其优化策略。通常情况下，在计算相似性评分时会采用统一的缩放比例 $\gamma$ 被统一使用。当我们采用Softmax函数输出作为各类别的概率估计时这种统一的缩放比例具有天然合理性。相比之下Circle损失方法则在未进行重新缩放的情况下对每个相似度评分分别赋予独立的权重因子从而避免了这一限制允许模型具备更高的灵活性与适应性。除了提升优化效果这一策略还提供了一种深入的理解视角即通过优化相似对关系而非直接分类样本这种方式能够更好地揭示数据间的内在联系机制这与基于对比学习与triplet loss的传统方法具有良好的知识兼容性

3.2. 类内和类间间隔

在优化 $(s_n - s_p)$ 这一损失函数时，在引入单一调节参数 $m$ 的基础上能够显著提升优化效果。考虑到 $s_n$ 与 $s_p$ 处于对称的位置关系，则向量空间中 $s_n$ 方向施加正向偏移的效果等价于向其镜像方向 $s_p$ 施加反向偏移的作用。从而只需引入单一的调节参数 $m$ 即可实现这一效果对比关系的描述。而在Circle loss框架中，则因为 $s_n$ /score与 $s_p$ /positive点位于非对称的位置区域，在这种情况下就需要分别为这两个点定义不同的边界，在数学表达式上则通过如下方式得以体现：

该圆环损失函数等于对数值的一加总和项乘积之总和。其中总和项包括两个子项：第一个子项是对所有 j 从 1 到 L 的指数函数之和；第二个子项是对所有 i 从 1 到 K 的指数函数之反向求和

其中 $\Delta_{n}$ 和 $\Delta_{p}$ 分别是类间间隔和类内间隔。

主要认为，在公式6中我们期望能够满足两个条件：即正样本特征 $s_p^i$ 与正类阈值 $\Delta_p$ 之间的距离大于零（ $s_p^i > \Delta_p$ ），以及负样本特征 $s_n^j$ 与负类阈值 $\Delta_n$ 之间的距离小于零（ $s_n^j < \Delta_n$ ）。为了进一步研究了决策边界设置对 $\Delta_n$ 和 $\Delta_p$ 的影响，在此我们仅考虑二分类问题的情况。其中我们假设决策边界由方程 $\alpha_n(s_n-\Delta_n) - \alpha_p(s_p-\Delta_p)=0$ 定义。通过代入公式5的结果，则可得出这一结论：...

$(s_{n}-\frac{O_{n}+\Delta_{n}}{2})^{2}+(s_{p}-\frac{O_{p}+\Delta_{p}}{2})^{2}=C \tag 7$

根据公式7的推导结果可以看出, 决策边界曲线呈现出一种圆弧形态, 其几何特性由相关参数所决定. 具体而言, 该圆弧的中心点坐标为 $s_{n} = (O_{n} + \Delta_{n}) / 2$ 和 $s_{p} = (O_{p} + \Delta_{p}) / 2$ , 而其曲率半径则为 $\sqrt{C}$ 的值.

Circle loss 包含五个关键参数，在涉及的关键变量主要分布在两个核心方程（公式5和公式6）中。其中涉及的关键变量主要分布在两个核心方程（公式5和公式6）中。其中涉及的关键变量主要分布在两个核心方程（公式5和公式6）中为了优化模型性能并减少复杂性考虑，在设定相关系数时采用了一种系统化的方法：将 $O_p$ 设为 $1 + m$ 、 $O_n$ 设为 $-m$ 、 $\Delta_p=1 - m$ 以及 $\Delta_n=m$ 等值组合以实现对各自由度的有效配置与平衡分配；这样不仅大幅降低了计算复杂度而且还能保持良好的分类性能表现；最终在这一系列设定下通过对相关系数进行合理分配与组合优化使决策边界得以进一步精简与优化从而实现了对决策边界的精确建模与优化

$(s_{n}-0)^{2}+(s_{p}-1)^{2}=2m^{2}. \tag 8$

基于公式8定义的决策边界

因此，只有两个超参数，即缩放因子 $\gamma$ 和松弛间隔 $m$ 。

3.3. Circle Loss 的优势

Circle loss 对 $s_{n}^{j}$ 和 $s_{p}^{i}$ 的梯度如下：

该圆圈损失函数对sₙʲ的偏导数等于一个归一化因子Z乘以指数函数γ((sₙʲ)² - m²)除以求和项Σ的指数函数γ((sₙˡ)² - m²)，再乘以γ(sₙʲ + m)，其中损失函数表现出良好的收敛性，并标记为(9)号方程

以及

该偏导数值等于Z乘以指数函数的比值，
其中分子为γ乘以(s_p^i−1−m)，
分母则为总和，
每一项都是指数函数，
其内部表达式为γ乘以(s_p^k−1−m)平方减去m平方，
整个结果再乘以γ倍的(s_p^i−1−m)。

其中 $Z=1-\exp(-\mathcal{L}_{c i r c l e})$ 。

针对二分类问题中的简化情形（或仅涉及单一 $s_{n}$ 和 $s_{p}$ ），我们通过不同 $m$ 值的设置对梯度进行可视化分析（图2 ©）。在此基础上总结出以下几点观察：

在平衡 $s_{n}$ 和 $s_{p}$ 的关系方面进行优化调整。回顾可知, 通过最小化 $(s_n - s_p)$ 的损失函数能够实现对两者施加相等的梯度值, 然而这一方法缺乏灵活性。相比之下, Circle loss 提出了动态惩罚强度的概念, 能够根据相似性对 $\{s_n, s_p\}$ 的具体表现进行适应性优化（如图 2 © 中参数 A = {0.8, 0.8} 所示）。Circle loss 根据优化效果自动调节对 $s_n$ 和 $s_p$ 的梯度分配（例如图 2 © 中参数 B），从而实现更为高效的优化过程。
在训练初期, 相似性分数与理想值存在较大偏差, 导致较大的梯度强度（如图 2 © 中参数 A 所示）。随着训练进程向收敛点靠近, 梯度强度逐渐减小（如图 2 © 中参数 B 所示）。这种动态调整机制使得优化过程更加温和和稳定。值得注意的是, 学习率 $\gamma$ 对模型性能的影响具有一定的鲁棒性, 这是由于算法采用了逐渐减小的梯度强度这一特性。
Circle loss 具备明确的收敛方向选择能力, 其决策边界呈现出圆形特征且更加倾向于 A 方向而非 B 方向（见图 1）。这一特点源于 T 类别在区分 $s_p$ 和 $s_n$ 方面的优势——即 T 类别能够在两者之间实现最小差距（相对于决策边界上的其他可能选项而言）。相反地, 最小化 $(s_n - s_p)$ 损失函数所对应的决策边界具有均匀特性（即所有点处达到理想状态所需的难度一致）。

4. 实验

研究Circle loss在两种基本学习方法中的应用及其有效性，并具体涉及基于类级标签学习和成对标签学习这两种方法

实验部分略，主要看超参数的影响和特性分析。

超参数的影响

探讨了这两个关键的超参数的作用，并指出它们分别源自于公式6中的缩放系数γ和公式8中的松弛系数m对面部识别任务的影响。

缩放因子 $\gamma$ 设定为每个相似性评分所允许的最大值。这一关键参数在多种基于Softmax的损失函数设计中扮演着核心角色。通过实验分析了该参数对Circle loss的影响，并与基于同样参数设置的其他相关损失函数进行了系统比较。具体而言，在本研究中将缩放因子 $\gamma$ 分别设置为32和1024进行实验研究，在该设置下评估了AM-Softmax和Circle loss的表现。对于另一种常见的方法ArcFace而言，则采用了32、64和128三个不同的参数设置，在这种情况下较大的缩放因子可能导致优化过程中的不稳定现象。实验结果如图3所示。为了进一步验证其性能优势，在对比分析的基础上还引入了与其他主流方法相结合的扩展框架，并通过大量实证数据验证了其有效性。
相对于基于固定缩放因子策略的AM-Softmax以及采用多级缩放策略的ArcFace而言，在这种情况下Circle loss展现出显著的优势。

调节参数 $m$ 直接影响着圆形决策边界半径的大小。通过调节 $m$ 的值从 -0.2 至 0.3（步长为 0.05），并结合实验结果在图3(b)中展示。经过测试发现，在调节范围内(-0.1至+1)内选择不同值时, Circle loss 性能表现优异, 其性能均超越了ArcFace和AM-Softmax方法的最佳表现, 最终展现出良好的鲁棒性特性。

特性分析

深入探讨优化机制的过程。通过可视化展示学习轨迹，在图 4 中呈现了从数据输入到输出阶段整个训练过程中 $s_{n}$ 和 $s_{p}$ 的变化情况，并得出了两个重要发现：

在初始化阶段，所有 $s_{n}$ 和 $s_{p}$ 的分数均较小。由于高维空间中的随机特征通常彼此之间距离较远，在这种情况下产生了这样的结果： $s_{p}$ 的权重显著高于其他类别（如 $s_{n_i}$ ），从而导致对其的优化成为训练的主要驱动力。最终导致图 4 中相似性值呈现快速上升趋势。这一现象验证了 Circle loss 在保持灵活性的同时实现了平衡优化。

其次，在完成训练后,Circle loss展示了更为卓越的类内紧致度与类别间区分度（基于训练集的数据）,相较于AM-Softmax方法.

我们对Circle loss的收敛性进行了分析。图5展示了Circle loss的收敛状态分析结果。探讨了两个问题：相似性对（由 $s_{n}$ 和 $s_{p}$ 构成）在训练过程中如何穿越决策边界以及它们在收敛后的 $(s_{n}, s_{p})$ 空间中的分布情况。通过比较可以看出，在图5 (a)中采用的是AM-Softmax loss的最佳设置 $m=0.35$ ；而在图5 (b)中则采用的是Circle loss的一个折衷设置 $m=0.325$ 。需要注意的是，在(a)和(b)中决策边界相切的现象允许我们直观地进行比较。进一步观察发现，在图5 (c)中采用的是Circle loss的最佳设置 $m=0.25$ 。通过对比(a)、(b)与(c)，我们发现当 $m=0.25$ 时，Circle loss在决策边界上的通道较为狭窄，并且其分布更为集中（尤其是在 $m=0.25$ 时）。这表明Circle loss提供了更为一致的收敛效果相比AM-Softmax loss而言具有更明确的目标导向特性）。这一现象进一步验证了Circle loss较AM-Softmax loss具有更清晰的收敛目标导向特性，在提升特征空间可分性方面表现更为突出。

5. 结论

本文提出了一种名为Circle loss的方法, 这种方法显著提升了深度特征学习在优化过程中的灵活性, 并明确了收敛方向. 该方法同时适用于基于类级标签的学习以及基于对端标签的学习, 并提供了一个统一的形式化表达.

总结

⭐ 该研究者提出了一种Circle损失函数作为深度特征学习中的关键损失指标。通过对其相似度得分施加加权处理, Circle损失旨在实现深度特征学习中模型优化的灵活性和明确的目标导向。

全部评论 (0)

还没有任何评论哟~

[论文笔记]Circle Loss: A Unified Perspective of Pair Similarity Optimization

引言为了理解CoSENT的loss，今天来读一下CircleLoss:AUnifiedPerspectiveofPairSimilarityOptimization。为了简单，下文中以翻译的口吻记...

【论文简介】Circle Loss: A Unified Perspective of Pair Similarity Optimization

CircleLoss:AUnifiedPerspectiveofPairSimilarityOptimization 旷世cvpr2020的一篇文章，站在更高的视角，统一了deepfeaturelea...

Circle Loss: A Unified Perspective of Pair Similarity Optimization 圆损失函数，统一优化视角，革新深度特征学习范式 CVPR 2020

论文来源：CVPR2020 论文链接最近旷视做了一项非常fundamental的工作。简单来讲，原来特征学习有2种基本范式，分类学习和pairwise学习，人们普遍都觉得这两者虽然有联系，但是总体上...

论文笔记（六十三）Understanding Diffusion Models: A Unified Perspective（五）

UnderstandingDiffusionModels:AUnifiedPerspective（五）文章概括基于得分的生成模型（ScorebasedGenerativeModels）文章概括 ...

论文笔记（六十三）Understanding Diffusion Models: A Unified Perspective（二）

UnderstandingDiffusionModels:AUnifiedPerspective（二）文章概括变分扩散模型（VariationalDiffusionModels）文章概括引用：...

论文笔记（六十三）Understanding Diffusion Models: A Unified Perspective（一）

UnderstandingDiffusionModels:AUnifiedPerspective（一）文章概括引言：生成模型背景：ELBO、VAE和分层VAE 证据下界（EvidenceLowe...

论文笔记（六十三）Understanding Diffusion Models: A Unified Perspective（三）

UnderstandingDiffusionModels:AUnifiedPerspective（三）文章概括文章概括引用： @articleluo2022understanding, titl...

论文笔记（六十三）Understanding Diffusion Models: A Unified Perspective（四）

UnderstandingDiffusionModels:AUnifiedPerspective（四）文章概括学习扩散噪声参数（LearningDiffusionNoiseParameters） ...

论文笔记（六十三）Understanding Diffusion Models: A Unified Perspective（六）（完结）

UnderstandingDiffusionModels:AUnifiedPerspective（六）（完结）文章概括指导（Guidance）分类器指导无分类器引导（ClassifierFre...

A Survey of Optimization Methods from a Machine Learning Perspective

ASurveyofOptimizationMethodsfromaMachineLearningPerspective 机器学习视角优化方法的综述读了一篇关于优化方法的综述，记录的同时也给大家分享一...

是否确定退出登录?

[论文笔记]Circle Loss: A Unified Perspective of Pair Similarity Optimization

引言

1. 总体介绍

2. 统一的视角

3. 一个新的损失函数

3.1 自适应加权

3.2. 类内和类间间隔

3.3. Circle Loss 的优势

4. 实验

超参数的影响

特性分析

5. 结论

总结

全部评论 (0)

相关文章推荐

[论文笔记]Circle Loss: A Unified Perspective of Pair Similarity Optimization

【论文简介】Circle Loss: A Unified Perspective of Pair Similarity Optimization

Circle Loss: A Unified Perspective of Pair Similarity Optimization 圆损失函数，统一优化视角，革新深度特征学习范式 CVPR 2020

论文笔记（六十三）Understanding Diffusion Models: A Unified Perspective（五）

论文笔记（六十三）Understanding Diffusion Models: A Unified Perspective（二）

论文笔记（六十三）Understanding Diffusion Models: A Unified Perspective（一）

论文笔记（六十三）Understanding Diffusion Models: A Unified Perspective（三）

论文笔记（六十三）Understanding Diffusion Models: A Unified Perspective（四）

论文笔记（六十三）Understanding Diffusion Models: A Unified Perspective（六）（完结）

A Survey of Optimization Methods from a Machine Learning Perspective