Advertisement

CrossCLR: Cross-modal Contrastive Learning for Multi-modal Video Representations, 2021 ICCV

阅读量:

本文内容仅代表个人理解,如有错误,欢迎指正

1. Points

这篇论文主要解决两个问题

跨模态对比学习(Cross-modal Contrastive learning)更聚焦于多模态特征之间的关系,并不包括单一模态内部的信息。

在将不同模态的数据投射至Joint space的过程中,在配对样本(如Image1与Text1)之间建立较近的距离,在非配对样本(如Image1与Text2)之间建立较远的距离的同时,并未考虑到同一模态内的语义相似数据(例如Image1与Image8),它们在Joint space中的距离应当保持相近。

在此基础上, 提出一种基于Inter-Modality and Intra-Modality Alignment的方法, 使得模态间的对应关系与各模体内部的协调机制均得以实现

在跨模态对比学习(Cross-modal Contrastive learning)中,在实际应用中采用随机方法选择负样本可能会导致语义碰撞(Semantic Collision),因此在实际应用中应谨慎选择合适的负样本以避免语义碰撞问题。

之前对比学习方法在选取negative samples时有两种不同的策略:一种是通过从 mini-batch 中随机抽取一些sample来选择negative samples;另一种是将 mini-batch 中除paired sample外的所有sample都选作negative samples。然而这种做法存在一个问题:如果此时所选的 negative samples与Anchor具有较高的 semantic相似性的话,则会使得这些 negative samples 在 Joint space 中的距离被错误地拉大了 ,这与我们对比学习的基本目标相悖

基于此,在研究过程中我们界定了Influential samples,并筛选出Negative set pruning和Loss weighting。

综上所述,就是提出了CrossCLR loss来约束/缓解上述问题。

2. Background Introduction

对比学习(Contrastive Learning)的核心思想在于:对于每一个Anchor样本及其对应的Positive样本和Negative样本,在将它们映射至Joint空间的过程中,旨在使得Anchor与Positive样本之间的距离最小化,并同时确保Anchor与Negative样本之间的距离最大化。

该模型有多个损失函数能够支撑上述思路:Max-margin loss, Triplet loss, InfoNCE等。

该损失函数相较于我们提出的CrossCLR方法忽略了潜在的问题。即存在一些被误判为Negative样本的样本实际上与Anchors在语义上有较高的相似度。这将导致语义上的冲突。

Figure 1 中可以观察到,

图a)与b)一方面仅专注于不同模态间数据的相似性;尽管未考虑到FalseNegative样本的存在,在某种程度上仍然始终致力于缩短配对样本之间的距离并避免扩大未配对样本之间的距离。

而图c) CrossCLR通过综合考量不同模态间的关联关系以及同一模态内部样本间的相似特征,并特别注意False Negative样本的情况,在不特意扩大Anchor与False Negative样本之间的距离的基础上,成功地实现了语义上的统一性。

Figure 1

3. Main Components

3.1 Inter-Modality and Intra-Modality Alignment

Figure 2

- 定义Loss函数,使得模型能够同时注意模态间和模态内的对齐。

基于给定的模态A和模态B的数据,在处理模态间的以及模态内的对齐问题时(如图2所示),共有四个主要组成部分:第一部分是模态A与模态B之间的对齐情况;第二部分是模态A内部的自对齐过程;第三部分是模态B与模态A之间的互相对齐环节;第四部分则是模型B内部的自对齐机制。具体来说,在第一至第二部分中所涉及的内容被整合到一个Loss函数中进行计算;而在第三至第四部分的内容则被单独作为一个Loss函数来进行优化训练(如图2所示)。

需要注意的是,在进行模态间的或模态内部的对齐时(将被介绍),应排除Influential samples,并防止语义上的冲突。(其实这一内容只是提供了一个关于模态间及模体内对齐损失函数的形式,在后续讨论中还将对其进行优化。)

3.2 Avoiding Semantic Collision

通常情况下, 充足数量的Negative sample有助于模型学习到更好的表示, 但需要注意的是, 在这些Negative sample中严格来说都是真正的Negative sample (具有与锚点强烈的语义重叠). 如果错误地将高度相关的sample (A与F sample)之间的距离被拉大, 则会导致Semantics Collision.

为此, 应努力降低语义冲突所导致的影响, 并且从Negative set中排除所有False Negative samples.

本节将从以下几个方面阐述本文的工作:1. influential samples;2. negative set pruning;3. loss weighting。其中第二条和第三条基于第一条展开

1. Influential samples

Influential samples can be characterized as those instances where a particular instance exhibits high connectivity with numerous others within the dataset. Influential samples tend to show strong connections with many other instances and often play significant roles in data representation and analysis. These highly correlated instances frequently demonstrate shared characteristics, which often result in semantic overlap.

  • 该方法通过L2归一化与点乘操作的结合实现余弦相似度的计算。该方法旨在评估各样本间的关联程度。关联程度越高,则表明该样本的影响更为显著。如Figure 2右图所示,在同一模态的数据集中对每个样本与其他所有同模态样本进行关联程度累加求和以确定其总影响权重。若其总影响权重达到预设阈值以上则被识别为具有影响力的样本这些具有影响力的样例将会从Negative set中被剔除

2. Negative set pruning

- 简单来说,就是把Influential samples从Negative set中移除。

3. Loss weighting

通过每个Sample的Connectivity(相关性)这一指标来确定其权重值(特别地,在Negative sample instance中)。其中相关性与其对应的权重呈正比例关系。这意味着,在所有情况下,具有更高Connectivity值的样本将获得更高的权重分配。

    1. Samples with very low connectivity can be seen as outliers within the dataset. These samples, due to their sparsity, have limited ability to positively impact the shape of the embedding. However, when used as negative examples in contrastive learning compared to other samples, these features tend to be relatively coarser or less refined.

此外,在论文中"同时,在相同的时间段内"这一表述可能不够准确?其中所说的"influential_samples"实际上应该指的是具有较高connectivity但仍低于阈值的样本(类似于Hard_negative_samples),而并非第一部分中所定义的真实"influential_samples".

实际上,在本文所提出的Influential samples与Hard negative samples之间存在一定的联系值。相比之下,它们之间的界限尚不明确。

最后,在本研究中所采用的CrossCLR损失值定义为C = \frac{L_x + L_y}{2}。需要注意的是,在实验结果分析中发现该损失函数与3.1节中的损失函数存在显著差异:一方面,在数据集上增加了样本权重;另一方面,在负样本中去除了具有影响力的样本。

通过将CrossCLR Loss应用于COOT的Two-stream架构来验证该模型的有效性。该模型由两个Transformer模块组成(包括局部transformer和全局transformer)。其中局部transformer用于生成frame/word级别的嵌入表示(local embeddings),而全局transformer则负责视频段落级别的嵌入提取(global embeddings)。即当输入视频数据和文本信息时,在预训练的神经网络模型指导下完成特征提取与融合操作。

Figure 3

4. Experimental Results

Comparison among contrastive learning losses

- outperforms other contrastive losses :)

Comparison to the state-of-the-art text-to-video retrieval on Youcook2

Performance Comparison of the proposed method with leading-edge text-to-video retrieval techniques within the LSMDC dataset

Ablation study

- CrossCLR主要有三个组成部分

1. Intra-modality alignment:定义loss,保证同一模态下数据的对齐

2. negative pruning:将Influential samples从Negative set中移除

3. proximity weighting:依据Connectivity的值来给sample权重

通过查看表格数据可以看出,在与项目2和项目3相比的情况下,采用Intra-modality alignment所获得的提升最为显著。因此,在模态间的数据对齐方面仍有许多值得深入探索的地方。

Distribution of similarity scores for positive and negative pairs

从这张图中可以看出,在Cross-CLR损失下,负样本的分布情况趋向于正样本。

CrossCLR achieves a higher confidence level (lower variability) for positive samples compared to MaxMargin and SimCLR losses.

CrossCLR enables semantic relatedness among negative examples, tending to shift the distribution toward positive scoring results.

Qualitative results for LSMDC dataset

- t-SNE visualization:非线性降维技术,用于对高维数据可视化。

在图中左侧的部分分别对应着基于text embeddings的t-SNE可视化结果。可以看出显示为,在此视图中左边区域的数据点表现出明显的区分度。值得注意的是,在此视图中左边区域的数据点显示出在CrossCLR方法下样本间的清晰区分度,并且显示出更高的内模一致性相较于NT-Xent方法。

(*我的实验分析果然还有待加强)

全部评论 (0)

还没有任何评论哟~