Advertisement

多模态embedding再突破!创新改进方案盘点

阅读量:

2025深度学习发论文&模型涨点之——多模态embedding

多模态Embedding方法的目标是利用统一表征空间将文本、图像、音频以及视频等不同域的数据转化为能够独立表达形式且消除语义障碍的向量表示形式,并以此实现突破模态间的语义鸿沟以及在表示对齐和协同推理方面取得显著进展

然而,在数据分布、信息密度与抽象层级方面存在根本差异的情况下

论文+代码

论文+代码

AI创新工场

论文+代码

AI创新工场

包含相关的论文资料及对应的代码实现

包含相关的论文资料及对应的代码实现

论文精选

论文1:

Beyond Embeddings: The Promise of Visual Table in Visual Reasoning

超越嵌入:视觉表在视觉推理中的潜力

方法

视觉表(Visual Table):开发出一种层次化的文本描述系统用于构建视觉场景,并整合了物体类别、特征以及知识内容

生成器训练:基于小规模注释数据开发了生成器,并对其进行训练;该生成器能够根据输入图像自动生成相应的视觉表

多模态语言模型(MLLMs)整合:通过将生成的视觉表征作为关键输入元素纳入其中的方式,在多模态系统中构建完整的认知架构。

基准测试验证:通过11项典型的视觉推理基准测试验证了该方法的有效性,并覆盖了包括Visual Question Answering (VQA)和Cross-Modality Retrieval在内的相关任务。

图片

创新点

独特的视觉表展示能力不仅能够被人类及其强大的大型语言模型(LLMs)轻松解释还支持可控制性编辑并提供实例级别的世界知识以及详细属性从而显著提升视觉推理能力

性能提升:在多个基准测试中,在视觉表方面均展现了明显优于传统结构化的表示法以及基于文本的表示法的优势。具体而言,在MM-Vet基准测试中,在视觉表上构建的模型相较于传统方法实现了4.4%的性能提升;而在LLaVA-Bench基准测试中,则实现了2.4%的性能提升。

对齐复杂视觉环境:Visual Representation能够有效提取关键属性与知识,在多模态视觉推理任务中展现出卓越的效果。

通用性和可扩展性:视觉表作为一种视觉表征工具(Visual Representation),能够在多个领域中实现对平面图像(planar image)、动态视频(dynamic video)以及复杂3D场景(complex 3D scenes)的有效表达。

图片

论文2:

ModalChorus: Visual Analysis and Alignment of Multi-modal Representations using Modal Fusion Maps

ModalChorus:通过模态融合图进行多模态嵌入的视觉探测与对齐

方法

模态融合图(Modal Fusion Map, MFM)是一种用于开发新型参数化降维技术的工具,并通过整合度量与非度量目标来提升模态之间的融合效果。

交互式对齐:提供一种基于点集与集合的配准方式供用户进行操作,并旨在帮助用户直观地表达配准意图。

概念轴视图:开发了一种线性视觉表示方法,用于探测和对齐多模态嵌入。

数据增强:允许用户提供额外的数据,并通过加权嵌入的方法生成更多数据以提升对齐效果

图片

创新点

MFM展现了显著的性能优越性,在跨模态特征展示方面优于现有的降维方法如t-SNE和MDS等传统技术。具体而言,在基于COCO数据集的零样本分类任务中,MFM在跨模态信任度指标上较最强基线方法DCM提升了约2%以上,同时其在跨模态连续性指标上的优势也达到了2%以上。

通过案例分析验证了ModalChorus在零样本分类、跨模态检索以及生成任务中的有效性表现优异。具体而言,在零样本分类任务中,在单模态对齐策略下实现了整体准确率较之前提升了1.38个百分点(从69.28%增至70.66%),其中针对特定物种(如青蛙)的分类精度同样显著提高(从32.82%提升至45.24%)。

多模态嵌入的系统化呈现:MFM作为一种跨模态表示技术,在系统层面能够整合并展示各维度的信息特征,在实际应用中能够更有效地揭示潜在的语义关联与语用关系,并帮助用户及时排查可能存在的错位问题。

灵活支持的对齐操作:能够不仅支持点集与集合之间的对齐,并且能够处理多种复杂多样的对齐场景,在概念注入以及解耦方面表现出良好的适应性。

图片

论文3:

Hilbert空间嵌入型轨道优化问题用于多模式不确定障碍物运动轨迹预测

基于希尔伯特空间嵌入的多模态不确定障碍物轨迹预测的轨迹优化

方法

Hilbert空间中的嵌入方式被用来将障碍物轨迹分布成功纳入到再生核Hilbert空间(RKHS)之中;基于最大均值差异度量法有选择地提取关键数据点。

简化集的选择:采用了优化方案,在障碍物运动轨迹数据样本中进行了筛选处理,在初步筛选的基础上确定最具代表性的轨迹作为候选集合。从而形成了一个简化的轨迹集合

机会约束优化:针对机会约束优化问题进行转化表述为分布匹配问题,并采用MMD度量评估碰撞概率。

采样优化策略:通过基于采样的优化策略实施,并融合模型预测路径积分(MPPI)技术和投影优化方法以实现更高的计算效率

图片

创新点

简化集的选择效率得到显著提升:采用优化策略选择的简化集在避障任务中展现出卓越的效果。此外,在合成数据集测试中,在与基线方法相比时,在平均自由度轨迹数量上有明显增加(从906增加至972),增长幅度约为66条,并呈现了约7%的增长幅度。

多模态轨迹处理能力:该系统展现出良好的轨迹管理能力,并能精准识别并分类不同的运动意图类型(如突然变道的行为模式与持续车道维持策略),同时支持复杂的动态环境下的实时决策制定与路径规划优化过程;在实验数据集上的测试结果表明,在保证行驶安全的前提下,MMD-Opt算法较传统优化方案具有更高的计算效率优势,并且其性能表现更加稳定可靠;通过对比分析可以看出,该算法在关键性能指标上均优于现有同类技术方案

运算效率:该方法运行速度极快,在实时应用中表现优异。具体而言,在配备高性能显卡的笔记本电脑上运行测试基准集时(包含十个简化的数据集),完成全部测试任务仅需约千分之二秒的时间。

抗干扰能力:在处理复杂多模态轨迹分布时,MMD-Opt方法展现出更强的能力,在最差情况下其性能不逊于基线方法

图片

论文4:

VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval

VISTA:用于通用多模态检索的可视化文本嵌入

方法

灵活的设计架构使VISTA通过整合视觉标记嵌入这一创新手段,在增强强大的文本编码能力的同时实现了对单一图像信息、独立文本信息以及二者的结合信息的有效编码。该方法基于Vision Transformer (ViT)构建了一种高效的信息处理框架,在该框架下将提取到的空间位置特征与原始视觉特征相结合生成多模态表示。具体而言,在输入处理阶段系统首先会对输入样本进行标准化预处理并提取二维空间位置特征;接着利用Vision Transformer (ViT)结构化模型对空间位置特征进行学习提取并生成对应的高维表示;随后系统会将此位置特征与原始图片的空间位置特征相结合形成多模态联合表示;最后系统会对上述三种不同类型的输入数据分别建模并学习其独特的表征特性。

数据生成策略:VIST
A研发了两项创新性的数据生成方案

专注于创建高质量的图像-文本配对样本

旨在促进嵌入模型性能的有效提升

这些创新方案主要包含Image&Text To Image (IT2I)和Text To Image&Text (T2IT)两类核心数据集

涵盖了从单模态到多模态的数据整合与转化

多阶段训练算法:VIST系统遵循双阶段训练策略进行操作。第一阶段基于大量弱标注的跨模态数据集来实现视觉标记嵌入与文本编码器的有效对齐;第二步则利用生成的图像-文本配对数据来增强多模态表示能力。

图片

创新点

核二次判别(KQD)揭示了数据在非线性特征空间中呈现出非平衡类分布的独特优势;这种优势无法通过线性判别有效地进行区分。

不定核的扩展:将其推广至不定核情境,并显著提升了其在实践中常有违反正定性的场景下的实用性。

计算效率:而非显式地嵌入到Krein空间而采用基于特征分解的方法构造新的内积空间,则优化了算法性能。

数学基础:通过建立一种适用于处理不定核的数学框架为相关方法提供了坚实的基础,并不仅实现了对核线性和二次判别的扩展,并且能够适用更广泛的场景。

图片

全部评论 (0)

还没有任何评论哟~