深度学习多模态融合_基于深度学习的多模态数据融合研究

该研究系统综述了多模态数据融合的深度学习方法,并发表于《神经计算》期刊上
摘要:
异构网络在大规模部署下生成了海量具有大容量、多样性和高速度特征的数据,并具备高度准确性的特点。这些数据被称为多模态大数据,并包含丰富的模态信息和跨模态信息。因此这些数据对传统数据融合方法提出了严峻挑战.The paper presents several innovative deep learning models for fusing multi-modal big data. One focus of this paper is to systematically review the representative architectures currently in use. Another emphasis is placed on summarizing the cutting-edge multi-modal data fusion deep learning models introduced recently. Finally we will describe the challenges and future directions in multi-modal data fusion deep learning models. Specifically we will summarize the most commonly used architectures which form the foundation of understanding multi-modal deep learning. Subsequently we will review the state-of-the-art multi-modal data fusion deep learning models. Finally we will highlight some challenges and future research directions in multi-modal data fusion deep learning models.
关键字:数据融合;脑电图(EEG);功能磁共振成像(fMRI)
1、背景
目前,在物联网、车联网以及社交网络等多个领域中,异构网络已成功部署。随着异构网络的广泛应用,在数据生成和收集方面呈现出前所未有的高效状态。这些大数据通常具有大容量、多样化、高强度以及高精度的数据特征,并且由结构化、半结构化以及非结构化等多种形式的数据组成。这些庞大数据在各个来源之间形成了多模态/多模态的关系,并且每个模态都包含特有的模态信息。
多模态数据融合被视为一种基础的方法,在多模态数据挖掘领域具有重要意义。它旨在将来自不同分布、来源以及类型的数据整合到一个全局空间中,在此空间中能够以统一的方式表征模式性和跨模式性特征。通过整合特定模式的信息资源,该方法能够提供比单一模式更为丰富的信息资源。过去的研究者们开发了多种方法来分析不同模式间的相互作用及其跨模式特性。例如,在研究线性多元关系方面,Kettenring等学者提出了基于多元统计分析的解决方案;Martinez-Montes等则发展了一种基于偏最小二乘模型的方法来揭示多个变量间的线性关系;Groves团队则引入了一种贝叶斯框架下的独立成分分析模型来处理不同模式间的关系建模问题。然而,现有技术面临诸多局限性:首先,这些方法往往受到计算复杂度限制;其次,它们难以处理高维、高阶的数据集;此外,现有的解决方案通常难以有效捕捉复杂模式中的深层关联以及非线性关系特征;因此,开发能够适应复杂场景的新一代多模态计算技术势在必行。
类似于传统的大数据系统,多模态大数据同样具备高容量、多样性和高效性。然而,在多样性方面却更为突出。具体而言,在由多种不同的数据模式构成的多模态大数据中,不同模式之间不相关的部分能够各自独立地描述相同事物的不同方面;同时,在各模式之间也存在着复杂的相关性关系。通过构建整合后的全面表示模型,并将其应用于各类多模态应用系统中,则能够显著提升各类多模态应用的效果。
深度学习是一种层次递进式的计算模型。其核心在于逐步提取数据的多层次抽象特征。其参数能够将原始输入转换为其特定任务的有效表示形式。基于有监督和无监督策略训练的方法,在生成性和分类性任务中均取得了显著进展。尽管在多模态数据融合方面取得了一些进展但目前仍处于初步阶段基于此我们回顾了具有代表性的多模态深度学习模型以期推动这一领域的发展
最近研究者从广泛部署的异构网络中生成了大量多模态大数据集。传统上采用的多模态数据融合技术存在局限性:它们未能准确捕捉到多模态大数据集中的模式表示及其跨模式互补特性;这种局限源于这些方法不具备学习数据固有表示的能力而只能构建浅层模型。受深度学习启发的一些创新性工作尝试探索多模态数据的融合过程;基于深度学习的方法已在多个领域取得了一定成效:包括智能机器翻译、图像注释以及医疗助手诊断等应用领域;然而,在多模式数据融合领域的深度学习研究仍处于基础阶段;目前尚无系统性综述总结现有深度学习模型的工作成果;因此本综述聚焦于基于深度学习的方法展开研究综述内容将为读者提供这一新兴领域的基础框架并激发进一步研究兴趣此综述系统梳理了具有代表性的深度学习架构包括深度信念网络(DBN)、稀疏自编码器(SAE)、卷积神经网络(CNN)以及 recurrent neural network(RNN)这些架构构成了理解当前主流深度学习融合模型的基础框架;随后按所采用的深度学习架构对创新性多模态融合模型从任务需求、模型框架设计以及所使用的数据集三个维度进行了分类总结最后探讨了当前多模式数据融合面临的技术挑战并展望了未来的发展方向
2、基于深度学习的多模态数据融合方法
我们从模型任务、模型框架工作以及评估数据集三个维度综述了基于深度学习的多模态数据融合方法的典型实例。基于所采用的不同深度学习架构,这些方法被划分为四种类别。表格系统地列出了不同类型的多模态深度学习模型及其特点。


1)基于 DBN 的多模态数据融合方法
3、结论
深度学习被视为数据挖掘的核心领域之一。近年来研究者们开发了许多具有代表性的深度学习架构来解决不同领域的挑战。如特征提取技术、音频压缩方法以及图像生成模型等均得到了广泛关注与应用。为了提升训练效率高性能计算资源(如GPU集群、多核CPU系统及云计算平台)被广泛部署于各相关系统中。在处理异构网络时面对海量且快速变化的数据流我们必须抓住机遇深入挖掘其潜在知识以支持多模态数据分析工作。然而这类复杂的大规模多模态数据因其庞大的容量快速的数据流特性以及多样性和准确性而给传统多模态数据分析方法带来了巨大挑战。为此研究者们提出了许多创新性模型试图通过融合不同模态信息改善分析效果并推动相关技术的发展。本研究综述了基于当前主流深度学习架构的多模态数据融合方案具体包括基于DBN SAE CNN及RNN等几种主要架构的设计与实现重点讨论了每种架构下不同模型的特点及其在实际应用中的表现现状与未来发展方向
首先,多模态数据融合深度学习模型中有大量的自由参数,尤其是对目标任务影响很小的冗余参数。为了训练这些参数捕获数据的特征结构,将大量数据馈入基于反向传播算法的多模态数据融合深度学习模型,该算法计算量大且耗时。为了提高权重学习效率,已经在计算密集型体系结构上执行了反向传播算法的一些并行变体:CPU 群集,GPU 和云平台。反过来,多模态数据融合深度学习模型的规模很大程度上取决于训练设备的计算能力。但是,当前高性能设备的计算能力提高的速度落后于多模态数据的增长速度。在当前体系结构的高性能计算设备上训练的多模态数据融合深度学习模型可能无法很好地学习体积增加的多模态数据的特征结构。因此,利用深度学习今习惯多模态数据融合的一个未来研究方向是设计一些具有很强能力的计算架构的学习框架。此外,自由参数的压缩是提高深度学习中单模态数据特征学习训练效率的有效途径,目前在这块儿已经取得了很大的进步。因此,如何结合当前的压缩策略来设计多模态深度学习的新压缩方法也是一个潜在的研究方向。
此外,在多模态数据融合方面采用了深度学习模型的方法中所包含的信息仅限于对每个模态特有的内在特征进行提取,并未涵盖不同语义层次之间的关联信息。这种传统的基于深度模型的学习策略虽然能够生成高度抽象的跨模态表征空间中的表示形式(即...),但在这种架构下难以实现对多模态数据所蕴含丰富语义关系的有效捕捉与建模。因此,在现有的多模态数据融合方法中存在明显的缺陷与局限性:一方面无法充分挖掘不同语义层次之间的潜在关联性;另一方面也无法有效适应多维语义空间之间的复杂关系网络构建需求;再加上现有方法在实现多模态数据融合时所采用线性化的表征整合策略严重制约了其在处理非线性复杂关系方面的表现能力
由于动态环境中多模态数据存在不确定性(uncertainty),即动态数据意味着数据分布会随之变化(changes)。传统的基于多模态深度学习的方法是当数据分布变化时重新训练模型(retrain the model)。然而,在线应用中对实时更新的需求使得仅依赖重新训练模型的方法效率低下(inefficient)。因此,在线学习与增量式学习代表了实时更新的核心策略(strategies)。此外,在处理实时更新需求的过程中还需要考虑以下几点:首先,在不损失大量历史知识的前提下(without significant loss of historical knowledge)能够有效利用现有知识;其次,在不显著增加计算开销的前提下(without substantial computational overhead)实现新旧知识的有效融合;最后,在保证系统稳定性的前提下(while maintaining system stability)提升系统的响应速度与处理能力。这些挑战要求我们深入研究适用于实时场景的高效算法设计与优化技术(efficient algorithm design and optimization techniques for real-time scenarios)。
致谢
本文由南京大学软件学院 2020 级博士生葛修婷翻译转述。
