Advertisement

ACM MM2024 | 网易伏羲多模态研究再获国际认可,推动特定领域跨模态理解新突破

阅读量:

近日, 第32届ACM国际多媒体学术会议(简称ACM MM)公布论文接收结果, 网易伏羲近期研究成果《Selection and Reconstruction of Key Locals: A Novel Specific Domain Image-Text Retrieval Method》被选中. 该论文聚焦于视觉语言预训练(VLP)、跨模态图文检索(CMITR)等前沿领域. 此次入选不仅标志着网易伏羲实验室在多模态技术领域的持续突破, 同时也验证了其在多模态智能体助手"丹青约"等产品中的技术落地效果.

由国际计算机协会(简称ACM)组织举办的世界级多媒体技术与应用大会,在该领域的研究和技术发展方面具有最高水平的国际顶级会议地位,并得到中国计算机学会的高度认可,并被认定为该领域的A类国际学术会议。作为本领域内处于领先地位的专业盛会,在过去几年里吸引了来自国内外众多知名企业的关注以及众多学者的目光。经统计数据显示,在往届大会中已累计收到超过6000余篇高质量投稿论文,在经过严格的评审程序后最终会收入大会 proceedings中的约25%至30%左右的作品数量。

凭借网易伏羲在人工智能领域的深厚积累,在大规模模型研究方面已持续近六年。

在这一基础上

以下为本次入选论文概要:

The selection and construction of characteristic areas represent a significant advancement in the domain of specialized fields. A new approach has been developed to enhance the efficiency and precision of image-text retrieval systems.

关键局部信息的选取与重建:一种新颖的特定领域图文检索方法

关键词:关键局部信息,细粒度,可解释

涉及领域:视觉语言预训练(VLP),跨模态图文检索(CMITR)

近年来,在视觉语言预训练 (Vision-Language Pretraining, VLP) 模型兴起的推动下,跨模态图像文本检索 (Cross-Modal Image-Text Retrieval, CMITR) 领域已取得显著进展。然而,在一般领域的 CMITR 任务中表现出色的如 CLIP 这样的 VLP 模型却在特定领域图像文本检索(Specific Domain Image-Text Retrieval, SDITR)中往往表现不足。这是因为特定领域通常具有独特的数据特征(这些特征与一般领域存在显著差异)。

在特定领域范围内, 图像之间可能会表现出高度视觉上的相似性, 但语义差异通常集中在关键细节部分, 如图像中某些特定对象区域或文本中意义丰富的词汇。即使这些局部片段细微的变化也可能对整体内容产生显著影响, 从而突显了这些关键局部信息的重要性。The requirement of SDITR is to enable the model to focus on these key local information fragments, thereby enhancing the expression of image and text features in a shared representation space, which in turn improves the alignment accuracy between images and texts.

本课题通过深入研究视觉语言预训练模型在特定领域图像-文本检索任务中的应用情况,并针对该任务中局部特征的利用问题展开探讨。主要贡献体现在提出一种基于具有判别性细粒度局部信息的方法,并成功提升图像与文本共享表示空间中的对齐效果。

为此提出了明确的分层特征选择与重构模块 以及基于多模态交互机制的关键区域更新策略 ,这些模块充分地利用具有高判别性的微粒化特征进行特征提取,并实现了图像语义与文本表示之间的更加精确对应。通过一系列精心设计的实验测试,在多个评估指标上均展现了该方法较现有技术更高的性能水平。

在此衷心感谢西安电子科技大学IPIU实验室为本论文提供的支持,并对其重要的研究工作和学术贡献表示诚挚的谢意。

此项研究成果不仅再创研究新高度,在多模态领域更显突出地位,并为跨模态理解提供了全新框架与技术基础。
通过致力于提升图像与文本在特定场景下的交互准确度,
这项工作不仅提升了技术层面的支撑能力,
更为其在实际应用中的落地效果奠定了关键基础。
目前,
网易伏羲的多模态理解能力已广泛应用于网易集团各核心业务部门,
包括网易雷火、网易云音乐以及网易元气等多个平台。
这些业务涵盖了游戏创新性文字捏脸玩法、跨模态资源搜索以及个性化内容推荐等多个应用场景,
展现出显著的应用价值与商业效能。

未来, 随着研究的深入和技术的进步, 该成果有望帮助人工智能技术在教育、医疗、电子商务等多个行业实现广泛的应用, 为用户打造更加智能化的服务体验. 网易伏羲也将持续深化与国内外顶尖学术机构的战略合作伙伴关系, 探索更多前沿研究领域, 助力人工智能技术的发展, 为构建一个更加高效、智能的社会作出更大贡献.

通过扫描下方二维码 ,马上即可体验‘丹青约’ ,更能满足你的需求 图文并茂地呈现多种交互体验。

全部评论 (0)

还没有任何评论哟~