跨模态检索2023年最新顶会论文汇总
本文总结了2023年几篇跨模态检索领域的前沿论文,涵盖了检索增强、多模态对比学习、轻量级检索方法、基准改进、检索优化等方向。以下是总结后的摘要:
Efficient Token-Guided Image-Text Retrieval with Consistent Multimodal Contrastive Training
该论文提出了一种高效的标记引导图像-文本检索方法,通过一致性多模态对比训练(CMC损失)结合Token-Guided双流架构(TGDT),实现了跨模态检索的性能提升。
Retrieval-Enhanced Contrastive Vision-Text Models
该研究探索了检索增强的对比视觉-文本模型(RECO),通过冻结CLIP模型并引入融合变压器,显著提升了细粒度任务的性能。
Self-Enhancement Improves Text-Image Retrieval in Foundation Visual-Language Models
该论文提出了一种自我强化框架A3R,通过属性增强和适应性重排方法,显著提升了基础视觉语言模型的跨模态检索性能。
ConaCLIP: Exploring Distillation of Fully-Connected Knowledge Interaction Graph for Lightweight Text-Image Retrieval
该研究提出了一种轻量级文本-图像检索方法,通过全连接知识交互图(CONA)和蒸馏技术,实现了高效且轻量的检索。
Learnable Pillar-based Re-ranking for Image-Text Retrieval
该论文提出了一种新型的柱状重排范式,通过多模态邻域关系建模,显著提升了图像-文本检索的性能。
Rethinking Benchmarks for Cross-modal Image-text Retrieval
该研究重新评估了跨模态检索基准,提出了改进后的基准(MSCOCO-FG和Flickr30K-FG),并验证了新基准在细粒度检索任务中的有效性。
Efficient Image-Text Retrieval via Keyword-Guided Pre-Screening
该论文提出了一种关键词引导预筛选框架,通过多标签分类和倒置索引,实现了高效的图像-文本检索。
Semantic-Preserving Augmentation for Robust Image-Text Retrieval
该研究提出了一种语义保持增强算法(RVSE),通过图像语义保护增强和文本增强,显著提升了模型的鲁棒性。
The style transformer with common knowledge optimization for image-text retrieval
该论文提出了一种带有常识优化的风格Transformer网络(CKSTN),通过常识适应器(CKA)和顺序更新策略,显著提升了图像-文本检索性能。
VITR: Augmenting Vision Transformers with Relation-Focused Learning for Cross-Modal Information Retrieval
该研究提出了一种增强视觉Transformer(VITR)框架,通过区域关系学习和推理结果汇总,显著提升了跨模态信息检索性能。
LexLIP: Lexicon-Bottlenecked Language-Image Pre-Training for Large-Scale Image-Text Retrieval
该论文提出了一种词典瓶颈预训练方法(LexLIP),通过稀疏词典表示和高效倒置索引,显著提升了大规模图像-文本检索的性能。
本文主要汇总了几篇跨模态检索2023年最新顶会论文。
Efficient Token-Based Image-Text Retrieval with Consistent Multimodal Contrastive Learning
该研究提出了一种基于一致多模态对比训练的高效图像-文本检索方法。该方法通过对比学习技术实现了对齐图像与文本表示,从而有效提升了标记引导的检索性能。该方法的代码实现已通过GitHub平台公开获取:https://github.com/LCFractal/TGDT
图像-文本检索是理解视觉和语言之间语义关系的一个关键问题,也是各种视觉信息和语言信息处理任务的基础。传统的大多数方法主要关注整体图像和文本的粗粒化特征提取,或是精确构建图像区域或像素级别的对应关系。然而,不同模态的粗粒度和细粒度表征之间的密切关系对图像-文本检索至关重要,但这一重要性却被忽视了。因此,这些先前的工作不可避免地存在检索精度低下或计算开销较高的问题。为了弥补这一不足,我们提出了一种新的方法框架。通过将粗粒度和细粒度的表征学习整合到一个统一的架构中,我们从一个新的角度重新审视图像-文本检索问题。这一架构与人类的认知方式高度契合,因为人类在理解语义时会同时关注整体样本和局部细节元素。基于这一洞察,我们设计了一个由两个同质分支构成的Token-Guided Dual Transformer架构,分别用于图像和文本模态。通过设计一致的多模态对比损失函数,确保图像和文本在共同嵌入空间中的语义一致性。在这一框架下,我们实现了跨模态混合相似性的全局与局部表示。实验结果表明,所提出的框架在跨模态检索性能方面达到了最新的水平,与现有代表方法相比,其推理速度显著提升。
Retrieval-Enhanced Contrastive Vision-Text Models
https://arxiv.org/abs/2306.07196
检索增强的对比视觉-文本模型
对比性的图像-文本模型,如CLIP,构成了许多最先进的系统的组成部分。虽然他们擅长识别常见的通用概念,但他们仍然在细粒度的实体上挣扎,这些实体很罕见,甚至在预训练的数据集中没有。因此,它们成功的一个关键因素是使用大规模策划的预训练数据,旨在扩大它们在预训练阶段可以记忆的概念集。在这项工作中,我们探索了一种将细粒度知识直接编码到模型参数中的替代方法:我们转而训练模型从外部存储器中检索这些知识。具体来说,我们建议让现有的视觉-文本模型有能力在推理时用从存储器中检索的跨模态信息来完善它们的嵌入,这大大改善了它们的zero-shot预测。值得注意的是,我们表明,这可以通过一个轻量级的、单层的、冻结的CLIP之上的融合变压器来完成。我们的实验验证了我们的检索增强对比性(RECO)训练在几个具有挑战性的细粒度任务上大幅提高了CLIP的性能:例如,在斯坦福Cars上+10.9,在CUB-2011上+10.2,在最近的OVEN基准上+7.3。
Self-enhancement enhances the performance of text-image retrieval within foundation visual-language models.
https://arxiv.org/abs/2306.06691
该论文提出了一种自我强化机制,有助于提升原始视觉语言模型在文本-图像检索任务中的性能。经CVPR 2023审稿人采纳。
随着跨模态基础模型的出现,发展出了许多基于文本-图像检索的方法。然而,在某些特定领域中的检索任务中,这些方法未能充分聚焦于所需的关键属性。为了解决这一问题,我们提出了一种名为A3R的自我增强框架,该框架基于CLIP-ViT/G-14构建,并被认为是跨模态模型中规模最大的之一。在模型学习之前,我们实施了一种属性增强策略,旨在丰富文本描述的细粒度表示。随后,我们提出了一种适应性重排方法,以统一文本查询与候选图像的表示空间,并在模型学习完成后,通过适应性查询对候选图像进行排序。经过测试,我们提出的方法在第一届基础模型挑战赛的跨模态图像检索赛道上实现了显著的性能提升,在不引入额外样本的情况下,其性能优于现有基线及其它团队的解决方案。代码已发布在GitHub仓库:https://github.com/CapricornGuang/A3R。
ConaCLIP: Exploring Knowledge Distillation of a fully connected knowledge interaction graph in Lightweight Text-Image Retrieval
https://arxiv.org/abs/2305.17652
ConaCLIP:深入研究轻量级文本-图像检索中的全局连接知识交互图提取方法
ACL 2023 行业 track
采用双重编码器架构的文本图像模型(如CLIP)经过大规模预训练后,广泛应用于视觉语言任务中,如文本图像检索。然而,由于索引项数量庞大以及推理所需计算资源的剧增,这些模型在边缘设备部署中仍显力不从心。尽管知识蒸馏技术已在单模态模型压缩领域取得显著进展,但将其扩展至双模态场景,尤其是同时增加教师与学生数量的情况下,仍面临诸多挑战。本研究对这一领域进行了系统性探索,并提出了一种全新的跨模态蒸馏方法,即完全连接的知识相互作用图(CONA)。基于实验结果,该方法在轻量化设计下实现了FlickR30K和MSCOCO基准任务上的最优性能。在电商平台上实际应用的案例进一步验证了该方法的实用价值。
Learnable Pillar-based Re-ranking for Image-Text Retrieval
https://arxiv.org/abs/2304.12570
该方法基于可学习柱实现图像-文本检索的重排序问题求解
被 SIGIR2023 会议接收
图像-文本检索的目标是弥合模式之间的差异,通过基于语义相似性的跨模态检索来获取相关的内容。早期的研究主要集中在成对关系上(即一个数据样本与另一个样本的匹配关系),而忽视了高阶邻近关系(即多个样本之间的匹配结构)。重新排序是一种流行的后处理方法,它展示了在单模态检索任务中捕捉邻近关系的优越性。然而,直接将现有的重排算法扩展到图像-文本检索是不合理的。本文从四个维度进行了深入分析,包括泛化性、灵活性、稀疏性和不对称性,并提出了一种新型的基于可学习的支柱式重排范式。具体而言,我们首先选择了模内和模间排名靠前的邻居作为支柱,然后通过这些支柱及其邻居关系来重构数据样本。通过这种方式,每个样本都可以仅基于相似性映射到多模态的支柱空间中,从而实现了良好的泛化能力。接着,我们设计了一个基于邻域感知的图推理模块,灵活地利用这些关系来挖掘邻域内稀疏的正项。此外,我们还提出了一个结构对齐约束,以促进跨模态的协作,并对齐不对称的模态。在这些基础架构上,我们在Flickr30K和MS-COCO两个基准数据集上进行了广泛的实验,结果证明了我们提出的新重排范式的有效性、优越性、通用性和可迁移性。
Rethinking Benchmarks for Cross-modal Image-text Retrieval
https://arxiv.org/abs/2304.10824
深入探讨跨模式图像与文本检索的基准方法
该论文已被 SIGIR2023 会议接受
图像-文本检索作为信息检索领域的一个基础且关键的分支,已经引起了学术界的广泛关注。该任务的核心挑战在于跨模态语义理解与匹配。近年来的研究工作更倾向于关注细粒度的跨模态语义匹配问题。随着大规模预训练模型的兴起,一些先进的模型(如X-VLM)在常用的图像-文本检索基准测试集,即MSCOCO-Test-5K和Flickr30K-Test-1K上展现出了卓越的性能。在本文中,我们回顾了这两个基准测试集,并发现它们在评估细粒度跨模态语义匹配能力方面存在不足。具体而言,这些基准测试集中提供的图像与文本均为粗粒度级别的。基于这一发现,我们对现有基准测试集中的粗粒度图像与文本数据进行了优化改进,提出了新的测试基准,命名为MSCOCO-FG和Flickr30K-FG。在图像处理方面,我们通过引入更多具有代表性的图像样本来扩展了原始图像库。在文本处理方面,我们开发了一种半自动精炼方法,以较少的人力将粗粒度的句子转化为更详细的描述。此外,我们在改进后的基准测试集上进行了实验评估,以验证我们方法的有效性。通过系统实验,我们进一步分析了模型在细粒度语义理解方面的性能。结果表明,即使是最先进的模型在该领域仍有较大的提升空间,尤其是在区分图像中细微的物体属性方面。我们的开源代码和改进后的基准测试集可通过以下链接获取:https://github.com/cwj1412/MSCOCO-Flikcr30K_FG。我们相信这一工作将为跨模态检索领域的进一步研究提供新的研究方向和参考依据。
Efficient Image-Text Retrieval via Keyword-Guided Pre-Screening
https://arxiv.org/abs/2303.07740
通过关键词引导的预筛选进行高效的图像-文本检索
在数据快速扩张的背景下,现有图像文本检索方法在时间复杂度上与数据规模N呈正相关,这在实际应用中往往难以应对。本研究以提升检索效率为目标,开发了一个以提高效率为核心的关键词引导式图像-文本检索预筛选系统。具体而言,我们将图像与文本数据转化为关键词,并在检索前进行跨模态关键词匹配,从而在筛选阶段就可剔除大量不相关库样本。在关键词预测环节,我们将这一任务转化为多标签分类问题,并提出了一种多任务学习方案,将多标签分类器附加于图像-文本检索网络中,从而实现了轻量级且高精度的关键词预测。在关键词匹配方面,我们在搜索引擎中引入了倒置索引,这不仅提升了预筛选阶段的时间和空间复杂度,还实现了双赢的局面。在两个典型的数据集Flickr30K和MS-COCO上进行了广泛的实验验证,结果表明所提框架具有显著的性能优势。所提出的框架仅包含两个嵌入层,在应用到传统图像-文本检索方法之前,就可实现O(1)的查询时间复杂度,同时兼顾了检索效率和性能保持。代码已实现公开。
Semantic-Preserving Augmentation for Robust Image-Text Retrieval
https://arxiv.org/abs/2303.05692
基于语义信息保持的图像文本检索鲁棒性增强算法
已被接受至ICASSP 2023摘要:
本研究提出了一种图像文本检索的鲁棒性增强算法。该算法以语义信息为基础进行设计,通过多模态特征融合机制,有效提升了图像文本检索的性能。实验结果表明,该算法在图像文本检索任务中表现出显著的性能提升。
图像文本检索是一项探索视觉世界适当文本描述的任务,反之亦然。这项任务的一个显著挑战是容易受到输入图像和文本损坏的影响,这种损坏在训练过程中往往未被察觉,从而显著降低了检索模型的决策质量。在本研究中,我们提出了一种创新的图像文本检索方法,命名为鲁棒的视觉语义嵌入(RVSE),该方法由图像语义保护增强(SPAugI)和文本增强(SPAugT)两种新型增强技术组成。SPAugI和SPAugT通过保留语义信息的方式对原始数据进行改变,迫使特征提取器生成语义感知的嵌入向量,而无需考虑损坏情况,从而显著提升了模型的鲁棒性。通过系统性实验,我们验证了RVSE在图像-文本检索性能方面显著优于传统检索方案。
A style transformer incorporating common knowledge optimization, designed to address image-text retrieval tasks.
该论文提出了一种改进的风格transformer模型,旨在实现图像-文本检索任务。该模型经过常识优化,显著提升了检索性能。
基于其卓越的研究价值和广泛的实际应用,该方法受到了广泛关注。然而,现有方法在处理高层次语义关系(风格嵌入)和多模态共同知识时存在不足。为此,我们提出了一种新型的带有常识优化的风格transformer网络(CKSTN),用于图像-文本检索。其核心组件是常识适应器(CKA),由风格嵌入提取器(SEE)和常识优化(CKO)两个子组件组成。具体而言,SEE采用了顺序更新策略,能够有效连接不同阶段的特征。CKO组件的引入旨在动态捕获来自多模式常识的潜在概念。此外,为了构建广义时间性常识,我们设计了一种顺序更新策略,通过将SEE中不同层次的特征与之前的共同特征单元进行有效整合。实验结果表明,CKSTN在MSCOCO和Flickr30K数据集上的图像-文本检索任务中表现优异,优于现有方法。同时,基于轻量级transformer的设计使得CKSTN在实际应用中具有更低的参数量和更高的适用性。
VITR: Enhancing Vision Transformers based on Relation-Focused Learning to Aim at Cross-Modal Information Retrieval
https://arxiv.org/abs/2302.06350
VITR:通过关系导向学习机制,提升跨模态信息检索的视觉transformer性能
以关系为核心的跨模态信息检索聚焦于根据用户查询中描述的关系来检索相关信息,这一技术在信息检索应用和下一代搜索引擎中具有重要价值。尽管像对比语言-图像预训练(CLIP)这类预训练网络在跨模态学习任务中表现卓越,但这些网络中所采用的视觉转换器(ViT)在刻画图像区域间的关系方面存在明显局限。具体而言,ViT被设计为在全局层面上将图像与相关描述进行匹配,却未能顾及图像区域与描述之间的内在一致性。本文提出了一种新型网络VITR,该网络通过提取和推理基于本地编码器的图像区域关系来增强ViT的能力。VITR主要包含两个关键组成部分:首先,通过扩展基于ViT的跨模态网络架构,以更精确地提取和推理图像中的区域关系;其次,将推理结果与全局知识进行整合,以预测图像与描述之间的相似度分数。在对Flickr30K、RefCOCOg和CLEVR等数据集进行实验时,将VITR应用于以关系为核心的跨模态信息检索任务。实验结果表明,与现有最先进的网络(包括CLIP、VSE∞和VSRN++)相比,VITR在网络层次的跨模态信息检索任务中展现出显著的性能优势。
LexLIP,即基于词汇瓶颈的语义预训练模型,用于大规模图像-文本检索任务。
https://arxiv.org/abs/2302.02908
LexLIP:一种专为大规模图像-文本检索设计的词典瓶颈语言模型,其在图像预训练任务中展现出卓越的性能。
图像-文本检索(ITR)是一项从另一种模态的查询中检索相关图像或文本的任务。传统密集检索范式依赖于双流编码器将图像和文本编码为密集表示,但该方法在大规模检索场景中存在检索速度较慢的问题。本研究提出词汇加权范式,通过为图像和文本学习稀疏表示,利用词包模型和高效倒置索引,显著降低了检索延迟。与传统方法相比,本方法的关键区别在于对图像数据连续特性的适应性要求与稀疏词汇空间表示的限制。为弥补这一差距,我们提出了一种新的预训练框架,即词典-瓶颈语言-图像预训练(LexLIP)。该框架通过在双流编码器和弱化文本解码器之间引入词汇瓶颈模块,实现了对连续词汇袋瓶颈的学习,从而有效感知词汇的重要性分布。在相同规模的数据预训练后,LexLIP在基准数据集MSCOCO和Flickr30k上展示了超越CLIP的最新性能。此外,在大规模检索场景中,LexLIP的检索速度较CLIP提升了5.5至221.3倍,同时索引存储内存提升了13.2至48.8倍。
