Deep Multimodal Learning A survey on recent advances and trends读书笔记
Deep multimodal learning 是计算机视觉及相关领域的热门研究方向之一。它通过整合多种模态信息可以从多个视角全面捕捉信息。近年来的调查研究表明现有方法的表现已显著提升。然而其性能瓶颈主要集中在三个方面:高效融合机制的设计、计算效率以及泛化能力等方面。未来的研究方向将致力于优化融合技术、探索新的应用场景以及深化理论基础研究。
Introduction
本节旨在介绍本文的研究目标以及所探讨的两个关键性多模态深度学习领域。研究的主要方向包括系统性地梳理多模态深度学习的发展现状,并探索其未来可能的研究路径。本文将重点聚焦于两个重要的多模态深层学习研究方向:
- 应用正则化技术提升跨模态学习框架的效果。
- 尝试通过探索、调整和优化等过程建立高效的复杂多模态模型。
Background
首先阐述了遥感技术和医学图像领域中多模态数据融合的应用现状,并概述了该技术发展的历程;如图1所示,则进一步探讨了相关数据来源及研究动态趋势。

图1 多模态深度学习数量图
- 多模态深度学习:学习方式是从数据中学习(特征和融合)、数据预处理敏感度低、特征选择和降维方式隐式、扩展性好、融合架构在训练中学习、训练数据规模大、超参数数量多、GPU依赖性强
- 传统的多模态学习:学习方式是手工设计、数据预处理敏感度高、特征选择和降维方式显式、扩展性差、融合架构手工制作、训练数据规模不需要很大、超参数数量没有深度学习多、GPU依赖性弱
简单介绍了多模态深度学习设计选择方式
- 决定何时整合多种模式
- 决定整合哪些类型的模式
- 决定涉及如何处理数据缺失以及识别潜在的模式问题
Applications
本章节阐述了多模态深度学习技术在多个领域的应用情况,并深入探讨了相关领域的数据集构建与公共基准测试的问题。具体数据可见于表2中。其中关键性挑战体现在识别精度上,并其主要应用场景涵盖人类动作识别、医疗影像分析以及自动驾驶系统等领域。
表2 数据集与挑战

表3 应用领域与挑战

Models
主要有三类判别模型 、生成模型和混合模型。
判别模型
判别模型是基于输入与输出之间的对应关系进行建模,并基于正则化损失函数优化模型参数。
生成模型
生成模型通常被用来描述观测数据或可见信息的复杂关联特征,在模式识别和数据重建方面具有显著作用
混合模型
混合模型基于统一的技术体系下将判别模型与生成模型进行整合与融合。具体来说,可以划分为三个主要阶段:
- 综合策略用于提升单个目标函数的学习效率。
- 循环过程用于训练公共表征,并通过最大化期望值实现这一目标。
- 阶段性策略中,在阶段1分别进行生成性和鉴别性成分的训练
Fusion structure
如图2所示,在图中具体分为三个类别:(a)基于早期特征的数据级整合;(b)基于后续特征的决策级整合;以及(c)中间层的特征融合。
早期融合的概念涉及在作为机器学习算法输入前进行处理多模态数据(这些数据有时性质各异)。如图2(a)所示,在Data Fusion层中整合了Modality1至k的数据。
后期融合是指由多个分类器构成的决策集合。
每个分类器都接收不同模型的数据作为输入。
由于多分类器出现错误的情况往往是相互独立且与数据特征无关的因素导致的,
因此这种集成结构通常受到重视。
如图2(b)所示,
在Modality1至k中,
每个模态分别提取其特有的特征并构建相应的模型;
随后将所有模型整合在一起形成最终的融合结果。
- 中期融合
神经网络将输入数据通过管道机制映射到更高级别的特征表示。每一层通常交替执行线性与非线性变换,这些操作用于调整形状、位置和方向,并生成新的数据表示。在多模态场景中,当所有模态转换为特征后,在隐藏层中融合这些特征成为可能。深度多模融合方法普遍采用这种中间融合策略,在这种框架下,共享表示层通过整合各模态特定路径的信息构建。图2(c)展示了简单的中期融合架构,包含三种模式:特征提取使用不同类型的层(如二维卷积、三维卷积或全连接层)进行学习,并通过共享表示层(也称为联合表示模块)实现特征的整合。

图2 多模态学习的三种融合模型
Multimodal regularization
深度学习技术通过迭代优化损失函数以最小化模型参数组(包括各层之间的权重与偏差)。为了提升泛化的性能,在训练过程中通常会引入一个或多个正则化解策作为补充项整合进损失函数中。从计算角度来看,这种做法增强了算法稳定性;而从统计学视角来看,则有效降低了过拟合现象的发生。
在深度多模态学习环境下,主要关注的因素之一是成本函数与正则化的公式构建。
信息论正则化的机制基于数据间互相关性及其变化特性构建。
结构化的Regularization方法则是通过对每组特定模态的权重参数采用特定形式的方法进行处理。
Fusion structure learning and optimization
当处理包含两种及以上模式的问题时,在所使用的模式特性不同的情形下,在确定最优融合架构方面会面临更大的挑战。通过将其视为模型搜索或结构学习问题来探索最优多模态融合体系结构,则能够有效解决这一挑战。
该方法在提高性能的同时也存在潜在风险。
较大规模的数据集能够显著提升分类精度。
然而,在实际应用中由于计算资源限制,
这种改进方案并不总是可行。
Elman从较小规模的网络开始逐步发展其架构设计,在每一步中加入新的隐藏层直至达到最优性能结构。
Chen及其团队通过神经网络间的知识转移方法来增加其深度与宽度。
研究者探讨了多种优化技术包括剪枝算法、遗传算法与贝叶斯优化方法目前仍需进一步深入理解剪枝与遗传算法的具体实现细节。
强化学习已被成功应用于构建深层神经网络架构研究中采用了基于递归神经网络的方法来描述体系结构并利用强化学习机制最大化其在验证集上的预期性能表现。
Datasets
该节作者阐述了当前数据集的情况,并认识到数据集中可能包含的模态种类可能有多种。其中一部分数据集(例如多模式医疗数据集)可能会受到涉及英文的道德隐私问题影响而导致规模较小。
Conclusions and future directions
作者重点提出的几个未来应用:
- 人类行为
- 医学影响应用
- 自动驾驶
- 智能机器人
