Advertisement

【人工智能时代】- 什么是多模态机器学习

阅读量:

首先,什么叫做模态(Modality)呢?

对于信息的各种来源或形式而言,它们都可以被视为一种模态。例如,在人类具备触觉、听觉、视觉和嗅觉等多种感官的基础上,在不同的情境下人们能够接收并感知到不同的信息;同时,在技术的发展过程中也出现了多样化的表现形式与存储介质以满足人们的信息获取需求;此外,在工程应用中广泛采用了多样化的传感器设备以实现对各种物理量的有效感知与测量。这些中的每一个都可被归类为一种模态。

此外,在两个不同的语言环境下所获得的数据集合同样也可以被视为一种模态。

为此目的,多源模态学习技术即为多模态机器学习(MultiModal Machine Learning, MMML)的核心内容。该技术旨在利用机器学习方法来处理和解析不同来源的数据信息。当前研究者普遍关注的领域包括图像、视频、音频以及语义数据之间的多模态融合问题。

起源于20世纪70年代的多模态学习技术,在经过多个发展阶段之后,则全面进入深度学习时代。

起源于20世纪70年代的多模态学习技术,在经过多个发展阶段之后,则全面进入深度学习时代。

人本质上是一个多模态学习的综合体现;因此也有人认为其核心方向应当是多模态学习。

多模态学习的分类

多模态学习可以划分为以下五个研究方向:

  1. 多模态表示学习:本研究聚焦于Multimodal Representation Learning这一前沿领域。
  2. 模态转化:该算法通过创新性的Modal Transformation机制实现了跨模态信息的有效传递。
  3. 对齐:为了确保数据的一致性与准确性,在数据预处理阶段实施了严格的数据对齐流程。
  4. 多模态融合:本系统采用了先进的Multimodal Data Fusion技术以提升数据处理效率。
  5. 协同学习:基于合作学习理论的指导方针, 本系统实现了各子系统的高效协同工作模式。

下面将针对这五大研究方向,逐一进行介绍。

多模态表示学习 Multimodal Representation

单模式的信息编码任务旨在将数据转化为计算机可处理的形式——即数值向量或更高层次的特征向量。相比之下,多模式互补关系的学习机制旨在去除各模式间的冗余信息并整合剩余内容以生成更加优化的表现形式。其主要研究方向包括:联合表征(Joint Representations)与协同表征(Coordinated Representations)

  • 联合映射机制被设计用于整合多个模态的数据集合,并将其高效地编码到同一个统一的多模态向量空间中;
    • 在多模态数据中协调地进行特征提取和表征学习的任务被称为协同表示;其核心目标是在保证各子空间独立性的前提下实现各子空间间特定的关联规则。
联合表示和协同表示对比图

联合表示和协同表示对比图

以下为经典应用举例

通过多模态表示提取特征也可用于信息检索和分类/回归任务。以下为经典应用举例

该论文于 NIPS 2012 出版中探讨了将 deep boltzmann machines(DBM) 模型的架构扩展至多模态场景的可能性,并指出基于 Multimodal DBM 的框架能够有效建模各模态之间的统计关联。

单模态和多模态DBM对比图

单模态和多模态DBM对比图

该实验基于双模态DBM模型(Bimodal DBM),建模并估计了图像与文本的联合分布P(图像, 文本)。在应用阶段中,在给定一张图片的情况下,在已知图像条件下计算出P(文本|图像),提取出对应的图像特征。通过上述计算过程可以获得与该图像相关的具体文本描述;反之,在给定一段特定的文本时,在已知该条件下计算出P(图像|文本),从而提取出相应的图像特征。如图所示:

CoSA学习是一种既具有重要性又具趣味性的应用领域,其起源可追溯至《Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models 》这篇文章.由于在协同学习过程中获得的特征向量支持加法和减法运算,因此能够实现与特定图片匹配的目标,并筛选出与输入图像符合"指定转换语义"的结果.例如,在图像检索任务中利用此方法可高效地匹配到与目标图像具有相同或相似语义特征的照片.

狗的文字特征求得(即文字特性)从狗的画面特性出发进行计算:首先将狗的文字特性猫的文字特性中减去,并将此结果与(即加上) 猫的文字特性相加;最终得到的结果即为(等于) 猫的画面特性. 在这一空间中基于最近邻的距离进行查询定位到对应的图像

转化 Translation / 映射 Mapping

改写说明

机器翻译(Machine Translation):它能够将输入的语言A的实时内容准确地转化为目标语言B的文字形式。此外, 唔读与语音识别则分别通过分析面部表情和声音波形来生成相应的文字内容。

图片与内容对应关系建立以及信息提取与组织:**对于给定的图像或视频,请撰写一段详细的文字内容提取报告与信息总结报告

语音合成(Speech Synthesis) :根据输入的文本信息,自动合成一段语音信号。

模态间的转换存在两大关键难点:其一是开放性问题,在实时翻译场景中,若尚未获得完整句尾前即需完成当前句子的翻译工作;其二是主观性问题,在图片描述任务中,则面临一个极具挑战性的命题:究竟应该如何界定并生成一段能够充分传达图像核心意义的文字?其二是这类转换效果缺乏统一且客观的评价标准。例如,在图片描述中,形成怎样的一段话才算是对图片好的诠释?也许一千个人心中有一千个哈姆雷特吧。

对齐 Alignment

多模态配准处理来自同一实例的不同模态信息中的子分支/元素对应关系管理。这种对应关系可能涉及时间维度上的匹配方式,并通过图中所示的时间序列配准技术实现一组动作对应的视频流与骨骼图片同步定位。类似的应用还包括电影画面与语音及字幕间的自动配准过程。

对齐还可以从空间维度进行探讨,例如,在**图片语义分割(Image Semantic Segmentation)**中,旨在将图像中的每一个像素与特定类型的标签相对应,以实现视觉与词汇之间的对齐

多模态融合 Multimodal Fusion

多模态融合(Multimodal Fusion)致力于整合不同模态的数据信息,在目标预测方面发挥着重要作用,并可被视为MMML中较早探讨的方向之一。此外它还拥有多种常见术语包括多源信息融合与多传感器融合等技术框架。作为MMML中最广泛的应用方向之一多模态融合在理论研究与实际应用中均展现出显著的价值

根据融合的层次来看, 多模态融合可划分为三个层级:像素级别、特征级别与决策级别.这些层级分别针对原始数据、抽象特征与决策结果进行了整合.其中, 在特征级别上又可分为早期阶段与晚期阶段.值得注意的是, 还存在将多种层级混合使用的方法.

融合层次示意图

融合层次示意图

多模态融合是一种广泛采用的技术领域;多种机器学习方法均可被用来处理不同来源的数据信息融合问题。

图像-声音识别(Image-Sound Recognition): 基于同一实例采集的图像数据与声音数据,完成识别任务。

多模态情感分析技术(Multimodal sentiment analysis): 该系统整合运用文字、面部表情及声音等多种数据源的信息(如图所示),借助互补性有效降低数据间的歧义性和不确定性,并最终实现更为精确的情感类型识别。

手机身份认证 Mobile Identity Authentication: 通过整合手机的各种传感器数据, 判断用户使用该设备的身份是否为注册状态。

主要困难在于评估各个模式的信任度;需要深入分析不同模式之间的关联性;必须提取多模式特征的重要信息;同时要处理异步采集的数据一致性问题。

如欲认识传统机器学习方法在该领域的应用情况,请参考清华大学出版的《多源信息融合》(韩崇昭等著)一书。

协同学习 Co-learning

协同学习主要体现在利用一个资源充足的模态信息去支撑另一个资源较少的模态的学习过程

例如迁移学习(Transfer Learning)可归类于这一领域。大多数迈入深度学习的初学者的主要任务之一是将ImageNet数据集训练获得的权重,在特定的目标数据集上进行微调。

迁移学习中对主要关注的方面集中在领域适应性(Domain Adaptation)问题上, 即如何实现源域训练获得的模型在目标域上的迁移应用

迁移学习领域中具有重要地位的是零样本学习(Zero-Shot Learning)和一样本学习(One-Shot Learning),这些方法在应用时通常会结合领域适应性相关的知识。

在 Co-learning 的范畴内存在一类称为**协同训练(Co-training)**的工作,在多元模态数据环境中通过少量标注样本扩大标注信息量的方法与技术研究形成了独特的领域

在上述应用的基础上可以看出,协同学习过程不受当前具体任务的影响,并且能够辅助实现多模态间的映射、融合以及对齐研究

结束语

到此为止,在此阶段我们对多模态机器学习领域的研究方向与应用进行了归纳总结。鉴于篇幅限制,在现有研究中还有许多未被涵盖的研究领域。

有什么读后感吗?

可能你之前未曾深入了解多模态学习(MMML)相关内容;通过阅读这篇文章,我发现我实际上正在从事MMML的一个细分领域。

也许你以前认为 CV、NLP 和 SSP 是人工智能的传统领域?读完这篇文章后你会发现通过多学科交叉融合的 MMML 理论与实践确实能够灵活运用深度学习技术让 DL 技术充分发挥潜力

也许你现在正在因为缺乏明确的研究方向而感到迷茫。通过阅读这篇文章,你会发现MMML提供了一个全新的研究视角,这意味著存在着众多值得探索的研究项目。

当前热度逐年攀升的跨学科研究领域,在此领域有浓厚兴趣的朋友不妨在评论区留下您的见解与反馈。我们诚挚邀请您在评论区留下您的见解与反馈。未来计划将陆续为大家呈现若干个新兴及具有代表性的MMML方向,并提供深入的技术解析。

邀您共同加入产品经理修炼之路:

全部评论 (0)

还没有任何评论哟~