Advertisement

论文笔记-A survey on deep multimodal learning for computer vision: advances, trends, applications

阅读量:

This paper presents a comprehensive analysis of deep multimodal learning techniques within the domain of computer vision. It explores the latest advancements, identifies emerging trends, and discusses various applications.

摘要
Introduction
与先前调查的比较
深度多模态学习架构
多模态表示
融合算法
基于深度学习的方法
卷积神经网络(CNN)基础
基于循环神经网络的方法
基于生成对抗网络的方法
带注意力机制的方法

  • 多任务学习方案
    • 多模态信息对齐技术

    • 基于多模态的知识迁移方法

    • 零样本学习框架

    • Tasks and applications

      • Visual tracking

摘要

该系统展现出显著的发展前景,并已逐渐成为推动人工智能技术进步的重要方向。在这一过程中,通过建立能够整合并有效处理多样化的数据特征的技术体系来实现目标

基于现有研究的归纳总结中,我们深入探讨了当前深度多模态学习领域的关键点:不同数据特征的表征方法、传统方法与深度学习驱动的融合策略、各任务间的关联机制建模、特征间的对应关系建模、不同域间的知识共享机制以及零样本学习技术。其中重点分析了以下六项核心技术:第一部分聚焦于各领域独特的表征方法;第二部分深入探讨了传统与现代融合策略;第三部分系统分析了任务间关联机制;第四部分研究了特征对齐问题;第五部分探讨了域间迁移机制;最后一部分则关注于零样本情况下的适应性处理技术。

Introduction

采用若干具有特定特性的传感器,统一地获取和分析全局和局部模态

在实践中,在多维数据空间中获取和整合丰富的信息时,则需要依靠中间机制以支持智能系统的决策过程。

该系统的主要挑战源于处理多个不同形态与维度的数据流,并通过识别这些数据流中的特征描述符来解析其内在规律。

通过研究如何整合提取的异构数据并将它们映射到同一个表示空间来实现目标,在本文中这种方法被命名为深度多模态;而在一项关键研究中则被命名为深度多模态学习。

我们的生存环境中包含多种不同的感知模式,在这个环境中人们能够观察到物体并对其进行分析研究;同时也能感知到声音信息并进行识别判断;此外还能触摸物体感受其触感并获得相应的反馈;此外还可以通过嗅觉感知空气中存在的各种气味信息。例如在人类的认知过程中视听感知渠道之间存在相互补充的关系:即听觉通道主要接收声学特性和视觉通道主要接收视觉特性这两种特性分别来源于两个独立的物理实体。

Comparison with previous surveys

Deep multimodal learning architectures

我们可以定义时空概念为对具有不同持续时间的视频序列实施时空处理的技术手段。在多模态学习框架下进行研究时,通过从视频序列中提取视听结合的特征信息来推导出包含三种感知模式的综合特征。

使用多模态数据源的主要原因在于可以通过多个传感器提取丰富且相互补充的信息来源,并从而能够实现比单个输入更为乐观的结果。

多感官感知主要涵盖广泛的交互方式,包括音频和视频

在这里插入图片描述

Multimodal representation

掌握如何分析输入信号的同时归纳其不同模态特性以整合来自不同维度的信息形成综合特征映射是至关重要的。

一般情况下,在人工智能领域中将单模表示定义为从单一输入流(如图像、视频或声音等)到复杂的人类理解层次(即高级语义表示)之间的映射关系通常是线性的或非线性的。多模态表征则通过整合各单模感知的信息来充分利用每个感知渠道的能力。

在这里插入图片描述

视觉符号与文本符号的本质区别 比较而言,在图像符号与文本符号的表征方式上存在显著差异。值得注意的是,在语言模型编码器所生成的文字序列空间中通常呈现出高度稀疏特征,在这种语境下将不同表征类型的特征进行有效融合会面临诸多技术难题。

另外一个案例是,在自动驾驶情况下行驶时的汽车驾驶员通常会配备LiDAR摄像头以及其他嵌入式传感器(如深度传感器等),用于感知周围的环境。

由此可见,在整合多模态数据以构建统一表示框架方面掌握联合嵌入技术具有重要意义。这表明应着重探讨多模态融合策略,并将在下一部分深入分析。

Fusion algorithms

当采用中间融合策略时,在各数据流间的特征表示空间进行融合处理后所形成的综合特征空间将呈现出显著的规模和维度特征差异,并有助于形成更加复杂且富有挑战性的整体结构

通常情况下,在各个处理阶段中的一种融合方案能够建立统一的多模态特征表征。

Deep learning methods

Srivastava等人[206]以一种基于深度玻尔兹曼机(deep Boltzmann machine, DBM)概念的方法提出了多模态生成模型。该模型通过在图像、文本和音频等多种输入空间中利用条件分布的数据来学习一组多模态特征。

基于多模态场景中,采用多模态DBN模型的主要体现在其在监督性、半监督性和无监督性学习框架下的敏感性与稳定性。

CNN

卷积神经网络(convolutional neural networks (CNNs)) are a fundamental class of deep feedforward neural networks, commonly referred to as CNNs. Their primary objective is to extract spatial patterns from visual input signals.

其独特特点在于它们不仅能够捕捉单元之间的局部连接,并且具备跨层共享权值的能力,并且还能有效地抑制隐藏层的非序列行为。

综上所述,在多种信息融合的多模态CNN被认为是一个强大的特征提取器的同时,这种架构能够从视觉模式中捕获局部跨模式的特征组合。

Recurrent neural networks based

该类深度学习模型(RNN)[12]主要是一种广泛应用的循环神经网络架构,在序列数据分析或建模方面表现出色。

它们通过建立输入激活与下一层次结构之间的映射关系,并随后通过循环反馈机制将隐藏状态转移至输出层。这种机制使得其能够从先前的状态中提取有用特征。相较于其他深度前馈网络(如CNN、DBN等),这种特性是其独特之处。

通过基于反向传播算法实现,在RNN函数中整合当前输入向量与上一时刻的隐藏状态以捕捉对象间的时间依赖关系。训练完成后,RNN函数维持在一个稳定的状态水平,随后便能够随着时间推移而执行预测或处理后续任务。

然而,在处理顺序数据时,普通 RNN 模型往往难以捕捉长程依存关系 ,这主要是由于它们缺乏内嵌的记忆机制。

基于此,在研究中已研发出多种流行变体以有效应对这种约束及梯度消失问题,并获得了显著的效果。这些创新方法包括长短期记忆网络(LSTM)[13]以及门控循环线性单元(GRU)。

在这里插入图片描述
在这里插入图片描述

双向多模态 RNN (m-RNN) 示意图

该图呈现了一种多模态 m-RNN 架构设计。
该架构通过整合双向循环神经网络机制与预训练的卷积神经网络模型实现了词嵌入与视觉特征的有效融合。

此外,在本研究中开发了一种基于多模态数据的动态睡眠检测系统。其中,该算法通过从可穿戴设备上采集生理信号数据,并结合时间戳信息进行整合分析。

可以看出,该模型由三个关键组成部分构成:分别是语言网络组件、视觉网络组件以及多模态融合层。其中的多模态融合层通过持续训练词嵌入表示并融合视觉特征来实现跨子网络的语义信息映射。形式上,则可表示为:

在这里插入图片描述

多模态 RNN 模型是基于反向传播算法解析多模态数据序列中时间范围内的关联性的一种高效工具。然而,由于其内部状态传递函数的计算开销较大,在实际应用中其收敛速度难以满足要求。

Generative adversarial networks based

从整体架构来看,其核心架构由两个关键模块构成,在训练过程中持续相互作用。这些模块分别对应生成器网络(G)与判别器网络(D),它们共同构成了统一的整体系统。

对抗性训练策略包括使用极小极大目标函数 V(G, D),其可以表示如下:

在这里插入图片描述
Attention mechanism

近年来,在过去几年中,注意力机制(AM)已成为了计算机视觉和机器翻译相关领域的复杂度最高的核心技术之一。

该方法旨在从输入图像中提取特定位置的信息,并通过计算这些位置上特征向量的加权总和来进行上下文表示。

在多模态分析中

此外,在 RNN 模型中集成 AM 可以为其提供关键特征和有别于其他模式的数据。

由于RNN编码端从输入序列生成固定长度特征向量这一过程,在实际应用中往往会导致复杂且费时的参数调优过程

Multitask learning

具体来说,在涉及多模态概念的场景中常见出现MTL范式。相较于仅专注于单一目标问题的传统单任务学习方法,在这种范式下所关注的重点是构建一个能够同时适应多个任务需求的通用表示形式。

它们的共性在于各任务间结构共性的利用有助于提升整体效能。
MTL方法的主要类型主要包括两个子任务:

  • 硬的可共享参数[110]:这种机制通过使不同任务共用相同的参数来实现的机制。常用于防止过拟合问题。
  • 软的可共享参数[111]:该方法生成一组特征向量,并对这些特征向量之间的相似性关系进行分析。
在这里插入图片描述

展示双任务场景下的系统架构。观察到该模型包含六层中间节点(共计六个中间层),其中每个主要任务均配有一个共用输入端点(位于底层)。在顶层部分,则分别设有各自独立的任务输出模块(位于顶层),这些模块被划分为三层隐藏结构单元。值得注意的是,在每一层次中均设置了两个相互独立的空间(即每个隐藏单元分为两组子空间)。通常而言,在多任务学习中通过整合各辅助任务的知识储备来优化主要目标的表现。

Multimodal alignment

多模态对齐 包括将两个或多个不同模态的特征线性连接起来。

Multimodal transfer learning

普遍采用的策略是通过高效的技术手段实现知识从另一个训练模型向大规模的数据集(如1000ImageNet)的有效迁移。
这些方法能够将已有的知识有效地迁移至庞大的数据资源体系中进行进一步的学习与应用。

已有的研究表明, transfer learning (TL)[70] 是一种有效的模型正则化技术, 它已经在训练具有有限可用数据量的深度模型以及防止过拟合问题方面表现出显著效果。

将已有知识库从与感官模态相关的现有知识库迁移至新任务或相关领域中,并有助于通过利用目标数据集进行学习和微调目标模型

以微调机制为基础的多模态迁移学习流程图示例如图12所示。通过分析可以看到,深度模型首先在原始领域进行预训练,并将所学的模型参数迁移到不同的模态(即微调模型),最后通过融合技术整合至目标领域。

在这里插入图片描述

Zero-shot learning

在实际应用中,在训练有效模型的过程中(即区分可见与不可见的类别),通常所使用的标记数据样本量往往难以达到充分覆盖所有对象类别的要求。

换句话说,它解决了某些类没有足够的训练数据时的多类学习问题。

在学习过程中,在处理分类任务时需要注意的是,在已有数据的基础上提取并利用额外的视觉和语义特征[134](如词嵌入、图像特性和描述性信息)能够显著提升模型的表现能力,并将其应用到已知类别与潜在未识别类别的数据中。

Tasks and applications

在多模态数据的建模过程中,需要在系统性能、计算负担和处理速度之间进行权衡取舍

通常情况下而言,在多数情况下而言,在计算机视觉领域中的各种应用场景中都得到了广泛应用。其中具体实例包括如面部识别系统和图像搜索功能等。

Visual tracking

几十年来,在计算机视觉领域中,
视觉追踪一直是重要的研究课题。
其主要任务是实时监测并追踪特定物体的运动状态。
通过分析按照时间顺序排列的帧序列数据集,
能够有效推导出固定物体运动轨迹的信息。

全部评论 (0)

还没有任何评论哟~