ACL 2021 | 百度NLP开源语言与视觉一体的统一模态预训练方法,登顶各类榜单
百度开发了一种语言-视觉一体化预训练模型UNIMO,并提出了一种新的统一模态学习范式。该方法成功打破了文本、图像及图文对等数据之间的界限,并使机器能够像人类一样融合异构模式的数据来学习语言与视觉知识,并通过协同作用来提升感知和认知能力。
百度在第22届深度学习开发者峰会上推出了语言与视觉一体的预训练模型ERNIE-UNIMO,并获得了ACL 2021主会作为长文oral报告的正式认可。
由机器之心主办的ACL 2021论文分享会于7月31日顺利举行,在本次会议上本文的第一作者李伟就其团队的研究成果进行了深入的阐述。如对上述内容感兴趣的朋友可以通过扫描下方二维码观看回顾视频

AI 系统是否能够模仿人类使用一个统一的大脑模型架构来整合感知与认知的一体化能力?基于这一核心观点,在人工智能领域中提出了一种多模态的一体化预训练体系的尝试性研究——UNIMO项目。

论文链接:https://arxiv.org/abs/2012.15409
该方法不仅具有首创性,在学习能力方面也表现出色,在处理文本、图像以及图文对数据时展现出强大的适应性;通过跨模态对比学习策略有效促进语言知识与视觉知识的统一表示及相互促进;在多个关键评估指标上显著超越主流的文本预训练模型和跨模态预训练模型;研究结果首次实证表明通过单一模态的数据进行非平行路径的学习即可实现语言知识与视觉知识的有效融合;目前该方法已在百度等主要产品中实现应用

UNIMO方法介绍
大数据被视为深度学习成功的重要支撑之一。其应用领域大致可分为三类:自然语言处理应用于文本数据、视觉应用应用于图像数据以及跨模态应用。显然可以看出,在实际应用场景中存在一种模式化的特征——即人类大脑在处理不同类型的模式时,并不局限于单一的学习机制;例如,在观察到一张图片的同时也能够联想到相关的文字信息;同样地,在接触到一段文字时也能触发与之相关的图像记忆;这种特性表明了不同感知通道之间存在高度的一致性与关联性;因此可以说各感知通道之间并不是完全独立的信息处理方式;这种特性进一步推动了我们对于人工智能系统设计思路的研究探索——如果能够设计出一种能够同时作用于多通道信息处理的人工智能系统,则可能突破现有技术框架下的认知局限性;这种设想无疑具有重大的理论价值与潜在的应用前景
基于异构模态数据进行统一预训练的方法命名为UNIMO,在数据预处理阶段采用文本、图像以及图文组合的方式进行特征提取,在模型架构设计中采用了Transformer网络作为核心组件,在具体的训练环节中将三种不同的模态数据经过特征提取后被整合到统一的空间中进行处理。这种方法不仅实现了对单一模态数据的有效捕捉能力而且能够高效地处理跨模态任务;其中图像信息被转化为目标(object)序列 文本信息则被转换为词(token)序列 而图文对则被编码为目标序列与词序列的拼接形式;在模型的学习过程中 三种类型的数据均被纳入同一个编码空间 运用掩码预测的方式进行自监督学习 并且通过图文对的数据展开跨模态对比学习 这种联合的学习机制使得模型能够在文本知识与视觉知识之间实现互相促进 从而显著提升了文本语义表达能力以及视觉语义表达能力

实现异构模态间的语义统一预训练面临的主要挑战是跨越不同模态之间的语义鸿沟

UNIMO实验结果
在实验研究中
在跨模态任务研究中,我们对ViLBERT、UNITER、Oscar、Villa等最新预训练模型进行了系统性分析与全面评估。通过实证研究发现,在多个关键指标上(包括图文检索Flick率、视觉推断准确率SNLI-VE、视觉问答VQA性能以及图描述生成CoCo Caption生成质量),UNIMO模型均超越了现有所有预训练模型。这一成果充分验证了统一预训练UNIMO模型在处理多种跨模态任务方面的卓越性能。

特别值得注意的是,UNIMO 不仅还能够处理纯文本任务。先前的跨模态预训练模型在其执行纯文本任务的过程中就已展现出明显的下降趋势,在某些情况下甚至出现了10-20个点以上的表现偏差。相比之下,在多种多样的文本理解和生成领域——包括但不限于文本分类、推理分析、摘要提炼以及阅读理解等多个方面——UNIMO 均展现出了显著的优势,并且其性能明显超越了 RoBERTa、XLNet 和 UniLM 等经典的单模态语言模型

为了探究UNIMO在单一模式与多模式统一学习中必要性的作用,论文开展了一系列系统性实验分析。实证分析表明,未采用纯文本预训练方案时,UNIMO模型在跨模态任务上的性能表现出现明显下降;而当舍弃图文配对与视觉特征独立训练方案时,同样导致其在纯文本条件下下的任务性能显著降低;这一发现充分揭示了UNIMO统一学习框架能够实现信息间的互补融合,并能通过促进两种信息处理维度间的协同进化关系形成,有效提升模型的整体处理能力


UNIMO应用
UNIMO 覆盖了多种跨模态应用场景,在图像与文本之间实现了双向交互能力。它不仅能够处理图像到文本的转换以及文本到图像的映射关系,并且还可以根据图像自动生成文字说明,在此基础上再生成对应的图片内容。此外还可以根据文字描述自动生成相关图片信息,并能对生成的内容进行问答互动。同时该系统也具备纯语言模式下的多种功能模块包括但不限于文本推断、语义解析以及生成式模型等技术。从实际应用效果来看研究表明该系统通过整合视觉与语言信息能够显著提升任务处理效能并展现出良好的泛化能力。目前已有部分技术实现了落地应用并开始在百度搜索平台中应用以提供更为精准的内容检索服务
跨模态检索:以文搜图、以图搜文
UNIMO 支持根据文字描述查找相关图片,并根据图片查找相关的文本描述。从结果来看,在处理文字与图片的语义理解方面表现更为出色。

跨模态问答:
UNIMO 也能够通过自然语言对图片内容进行询问,并基于模型所学习到的知识体系进行精准的回答

跨模态生成:根据文字生成图片
UNIMO 通过分析文字描述来生成与之匹配的图片。结果显示 UNIMO 具备精准地对齐视觉与语言属性的能力,并能生成清晰明了的画面内容。

百度开创性地提出了一种语言与视觉结合的预训练方法UNIMO,并构建了全新的统一模态学习框架。这种方法突破了传统文本、图像及图文数据之间的界限,在处理异构模态数据时展现出独特优势:使机器能够充分利用多模态数据资源,并通过协同学习机制共同提升语言理解和视觉感知能力;最终推动人工智能向感知认知一体化方向发展。未来百度将在这一领域继续深化研究并加以实践应用
扫描下方二维码即可查看视频介绍~

