推荐系统论文：AdaMML: Adaptive Multi-Modal Learning for Efficient Video Recognition

阅读量：

摘要：

在本文中, 我们提出了一种称为 AdaMML 的自适应多模态学习框架,该框架能够根据输入条件为每个视频片段动态选择最优的模态,从而实现高效的视频识别.具体而言,当提供一个视频片段时,多模态策略网络将被用来决定识别模型应采用哪些模态进行处理,从而达到提升准确率和效率的目的.为了优化性能,我们采用了标准的反向传播技术对策略网络和识别模型进行了有效的联合训练.在四个具有挑战性的数据集上进行的大量实验表明,与传统方法相比,即不考虑输入而统一使用所有模态的方法相比,我们的自适应方法能够在相同条件下减少35%-55%的计算开销的同时保持较高的分类精度

引言：

视频包含多种多样的模式类型：RGB帧、运动（光流）以及音频信息。因此，在重视各模式特性基础上发展起来的多模态学习方法近年来受到了广泛关注。尽管在理论上取得了显著进展，在实际应用中由于长视频采集过程中的计算复杂性限制以及数据获取难度较高等因素的存在而导致其应用效果并不十分理想。在长序列视频中某些特定模式在特定动作类别识别过程中提供的信息具有冗余或无意义特征因而可能会影响整体识别效果的选择性使用则显得尤为重要在这种情况下仅依赖于所有输入模态的信息可能会带来负面影响因为冗余信息往往会导致有价值的信息被无价值的信息淹没此外不同模态之间存在计算资源需求差异因此通过选择性能良好且成本较低的模态方案能够有效降低计算负担从而提升整体识别效率

Tip：

视频中的RGB帧是指通过红、绿、蓝（RGB）颜色通道表示的图像帧。在视频中每一帧由像素构成，在每个像素中都包含着红、绿、蓝三个色彩通道的具体数值。这些数值共同决定了每个像素点的颜色以及其明暗程度。例如，在红色与绿色通道达到最大值（255）、而蓝色为最小值（0）的情况下，则呈现黄色画面效果。在每一幅画面中，RGB数据框记录了图像中的色彩与明暗信息，并以此形成视频的画面效果

footage 的光学流动：它表示在连续的画面帧间 pixel 的运动向量及其速率。光学流动可用于表示 video 中物体移动、相机自身移动以及其他运动现象。通过计算两个相邻 frame 之间的 pixel 亮度变化程度（通常用方差或能量度量），我们可以推断出 optical flow 的方向与大小。在计算机视觉领域内，在动作检测、目标追踪以及三维重建等方面都有广泛应用。

在图1所示的场景中包含了来自该场景中八个均匀采样的连续帧图像序列。我们的问题在于：识别这段特定视频中的"割草"动作时是否需要所有八个片段都同时提供RGB和音频流？显然并非如此。因为经过分析发现，在第三帧和第六帧时间段内割草机运行时会伴随明显的音频特征出现；因此为了提高模型识别正确动作的可信度，在这两段时间内我们需要分别获取其对应的RGB和音频数据；而对于其余时间段（例如第一帧和最后一帧）则可以选择只获取一种模式的数据甚至跳过（如不获取），这样并不会影响整体准确性的判断；因此相比于全局统一多模态学习方案（即每一段都需要同时获取两种模式数据），本方法能够根据具体情况进行自适应选择输入模式从而优化计算资源分配；基于这一直觉我们提出了一种新的多模态学习视角即在复杂动作识别过程中对每个独立时间段进行自适应地选择最优输入模式以实现计算效率的最大化

在本文中,我们提出了AdaMML,这是一种创新性的可微分方法,用于根据输入条件选择最佳模式以实现高效的视频识别。具体而言,我们的核心思路在于学习一个模型（称为多模态策略网络）,该模型可以根据每个片段决定使用或跳过每种模态的所有二元决策后验概率。由于这些决策函数是离散且不可分的,因此我们采用了高效的Gumbel-Softmax抽样方法[22],通过标准反向传播共同学习决策策略与网络参数,无需像[57,58]那样进行复杂的强化学习操作。所设计的目标函数不仅能够达到视频识别所需的竞争性能,还能够提高效率水平。我们证明了通过轻量级策略网络自适应地选择输入模态不仅可以显著减少计算开销（例如,在Kinetics-Sounds[2]与ActivityNet[6]上与仅采用所有模态加权融合的基线相比,分别降低了约47.3%与35.2% GFLOPS）,而且其准确率表现也持续优于现有先进方法

方法：

给定一个包含K个输入模态

的片段序列

对于视频V中的某个部分而言，在进行后续处理时我们的研究重点在于构建一个能够根据实际场景自动优化输入模态组合的选择机制

方法概述：

考虑到这一任务迅速变得难以解决（即当潜在配置数量急剧上升时），我们开发了一种高效的策略网络（其中包含一个轻量级的联合特征提取模块以及一个LSTM处理单元）。该网络能够对每个输入片段生成一个二进制决策向量（即保留或放弃某输入模态），从而实现对多模态数据的有效选择而非人工决策方案）。

在训练阶段, 策略网络与识别网络采用 Gumbel-Softmax 抽样法进行协同训练. 测试阶段先将输入视频片段输入至策略网络, 根据输出结果确定最适用的模态类型, 接着选择确定好的模块传递至识别子网, 从而实现对片段级别的预测结果生成. 最后系统将所有分段级预测结果取平均值作为视频级别的预测输出. 需要指出的是, 在计算资源有限的情况下（如使用 MobileNetv2 模型）, 这种轻量化设计带来的额外计算开销几乎可以忽略不计.

学习型自适应多模态策略：

多模态策略网络：

该策略网络由一个简洁高效的联合特征提取器与一个LSTM模块组成，旨在模拟视频中各时间步之间的因果关系。在第t个时间步，LSTM接收当前视频段的特征序列作为输入以捕捉时空动态信息。

，先前隐藏的状态

、单元输出

以及联合特征

来计算当前隐藏状态

和单元状态

基于隐藏状态后的情况下

如上文所述，在作出决策后

使用 Gumbel-Softmax 采样进行训练:

对于每一个输入段中的各个模态类型，在决策过程中可以选择跳过或者采用两者之一。

Gumbel-Softmax技巧是一种高效可靠的工具，并非传统意义上的固定采样方法而是通过对应的Gumbel-Softmax分布生成一组可变样本来代替原始固定的样本。具体而言，在时间步长t的处理过程中

为每个模态从隐藏状态

生成logits

基于模态k的策略网络预测出分数这一指标后,随后采用Gumbel-Max技巧从分类分布中采样出具体的类别标签.

其中，

是标准的Gumbel 分布，

从区间（0,1）上的独立同分布均匀概率分布中抽取样本。方程 2 中 arg max 运算的无差别特性使得 Gumbel-Softmax 分布被视为其连续松弛技术的一种替代方案。基于这一性质，在 Gumbel-Softmax 分布中进行采样能够为离散样本建立反向传播路径到策略网络

表示为one-hot向量的形式，在机器学习和自然语言处理领域中具有重要的应用价值。
二元的one-of-n编码方案常用于离散分类或标签的表示方法。
给定一个类别集合C={c₁,c₂,…,cₙ}其中n为类别总数。
那么对于该集合中的每一个类别cᵢ其对应的二元one-hot编码是一个长度为n的向量其中仅第i个元素取值为1其余元素均为0。
例如对于三个类别的集合{A B C}对应的二元编码分别为：
A: [1 0 0]
B: [0 1 0]
C: [0 0 1]
随后通过应用Softmax函数将这些二元编码松弛为实值的概率分布向量P_k：

其中， ipsilon eft 0,1 ight ,kpsilon eft ,

就是一个参数，用于控制

的离散性，当

收敛到均匀分布时，

成为单热向量。更具体地说，当

当趋近于零时，在Gumbel Softmax分布中生成的样本几乎等同于离散分布的结果（即几乎与单热向量相同）。综上所述，在前馈传递过程中我们采用公式2来进行策略采样；而在反向传递过程中则通过计算公式3中连续性松弛梯度来近似替代离散采样的梯度

损失函数：

令

heta =eft heta _{hi },heta _{LSTM },heta {FC{1}},...heta {FC{k}},heta _{si _{1}},..,heta _{si _{k}} ight

表示框架中可训练的总参数，其中

和

分别代表策略网络中使用的联合特征提取器和 LSTM 的参数。

代表从LSTM隐藏状态生成策略对数的全连接层的参数，

由...组成的K个子网络所使用的参数，在协同训练过程中将尽可能降低以下损失指标以提升预测精度，并尽量避免选择那些复杂度较高的计算模式。

其中，

和y表示训练视频样本V的预测和one - hot编码的真实标签，

表示处理第k个模态的相关成本。

表示第k个模态的决策策略，

定义一个指标变量用于描述当预测结果正确时，在全部 C 个视频片段中选择第 k 种模式的片段比例。该指标通过数学公式 $...$ 来定义

来表示预测错误，其中，

我们通过调节参数来平衡效率与准确性之间的关系。这些参数被用来调整模型的决策阈值，在满足预设预算约束下生成多种不同的模型。等式 4 的第一部分代表了衡量分类质量的标准交叉熵损失；而第二部分则引导网络学习一种策略——例如，在识别视频时优先处理RGB帧比处理音频流所需的计算量更高。

实验：

实验装置：

数据库：

Kinematics-Sounds: 是 Kinematics 的一个子集, 包含约 2.3 十万份训练样本和约 1.5 千份测试样本, 覆盖 31 种不同动作类别。

ActivityNet-v1.3：包含 10024 个训练视频和 4926 个验证视频，涉及 200 个动作类别。

FCVID：有 45611 个用于训练的视频和 45612 个用于测试的视频，涉及 239 个类别。

Mini-Sports1M 是 Sports1M 数据集的一个完整子集，在训练阶段每个类别中有30个示例视频，在测试阶段每个类别中有10个评估样本，并涵盖总共487种不同的动作类型

数据输入：

为了提高效率和准确性，在本研究中采用了一个单通道的音频频谱数据作为输入(256×256即1.28秒的音频段)。鉴于计算光流具有较高的计算成本，在本研究中我们借助RGB帧差作为替代方案，在我们的策略网络中执行光流运算，并根据需求动态生成相应的光流特征向量。该方法借助RGB帧差作为替代方案，在我们的策略网络中执行光流运算，并根据需求动态生成相应的光流特征向量。我们借鉴了光流算法中的相关技术，在该方法的基础上引入了RGB帧间差分机制。通过这一机制能够有效减少所需的计算资源消耗，并生成一个大小为15×8×224×224的输入片段供后续处理使用。对于非音频模态的数据，在策略网络中我们采取了进一步子采样的方法来降低数据维度和复杂度

实施细节：

在识别网络领域中，在RGB以及流模式下采用与TSN相似的ResNet-50架构，在音频模式下则应用MobileNetV2。针对每一种模式的预测结果进行可学习权重的后期融合即可得到最终预测结果。策略网络中应用MobileNetV2提取所有模态的特征，并通过两个维度均为2,048的额外全连接层将各模态特征串联起来作为联合特征输入。LSTM模型设定其隐藏层单元数量为256个，并在输出层设置K个并行全连接层以生成每种模态对应的二元决策策略。分别从计算成本的角度来看，在处理RGB+音频数据时模型消耗约0.76GFLOPs，在识别任务上则达到14.52GFLOPs

训练细节：

在策略学习过程中, 我们发现在随机初始化策略的情况下, 同时优化准确性和效率的效果并不理想. 因此, 我们采用了基于ImageNet预训练权重的单模态模型对策略网络进行固定, 并对其实施5次热身训练. 接着, 我们轮流训练策略网络与识别网络各20个周期. 在完成这一过程后, 我们利用固定的策略网络对手动识别网络进行了10次微调. 为了保证实验结果的一致性, 所有对比实验均采用相同的初始条件及总训练周期数. 每个实验均使用5个视频片段作为数据输入. 在算法实现方面, 我们设定初始温度τ为5, 并在其训练过程中逐步退火至0. 参数λk被定义为跨模式计算负荷比值, 而γ值设定为10. 更详细的实现细节及完整代码可在附录中查阅.

基线：

我们将我们的方法与一系列基准模型及现有方法进行了系统对比分析。首先，在分析单模态基准时, 我们采用了独立训练各模式识别模型的方法. 其次, 为了全面评估性能, 我们将其与联合训练模型（称为"加权融合"）进行了对比研究, 该联合训练方式通过可学习权重实现后期融合, 而并非简单地综合所有模式信息（而是根据输入自动选择最优模式组合）。这种分类性能卓越但计算开销较大的基准方案展现了强大的分类能力. 最后, 为了验证其实用价值, 我们将该方法与当前先进的视频识别技术进行了对比测试, 包括FrameGlimpse、FastForward、AdaFrame、LiteEval以及ListenToLook等主流算法.

评价指标：

在评估视频级目标检测性能时, 我们具体采用两种指标: 具体而言, 在评估视频级目标检测性能时, 我们采用的是"视频级mAP"以及"top - 1准确率", 其中前者是基于10段均值预测的采样方法而得出的结果指标; 后者则基于每个样本进行预测后取最优结果的方式得到. 此外, 我们还探讨了自适应模态的选择比例, 其中, 在测试集上的策略网络选择了不同模态下的候选片段数量占比作为主要考量因素. 最后, 我们以千兆浮点运算(GFLOPs)作为衡量计算复杂度的标准.

主要结果：

与加权融合基线对比：

与现有方法的比较:

总结：

消融实验等去原文自行观看。

全部评论 (0)

还没有任何评论哟~

推荐系统论文：AdaMML: Adaptive Multi-Modal Learning for Efficient Video Recognition

摘要：在本文中，我们提出了一种名为AdaMML的自适应多模态学习框架，它能根据输入条件为每个片段即时选择最佳模态，从而实现高效的视频识别。具体来说，给定一个视频片段后，多模态策略网络将用于决定识别模...

Tailor Versatile Multi-modal Learning for Multi-label Emotion Recognition

题目：TailorVersatileMultimodalLearningforMultilabelEmotionRecognition 时间：2022年总结： 1、作者提出一种基于对抗的模型，模型对...

CrossCLR: Cross-modal Contrastive Learning for Multi-modal Video Representations, 2021 ICCV

本文内容仅代表个人理解，如有错误，欢迎指正 1\.Points 这篇论文主要解决两个问题 1\.跨模态对比学习CrossmodalContrastivelearning更注重于不同模态下的数据，而非同...

【tool learning论文系列7】MULTI-MODAL AGENT TUNING: BUILDING A VLMDRIVEN AGENT FOR EFFICIENT TOOL USAGE

MULTIMODALAGENTTUNING:BUILDINGAVLMDRIVENAGENTFOREFFICIENTTOOLUSAGE 之前探讨的toollearning方法都是基于提示中的上下文示例仅...

X3D: Expanding Architectures for Efficient Video Recognition个人论文笔记

https://zhuanlan.zhihu.com/p/129279351 这篇X3D的解读写的比我早，写的挺好的，但有些细节没写上，所以由于强迫症写了这篇个人笔记 X3D为一系列的高效视频分类网络...

TAM: Temporal Adaptive Module for Video Recognition

原文链接：<https://arxiv.org/pdf/2005.06803v1.pdf 1.Abstract 时间建模是捕捉视频时空结构进行动作识别的关键。由于摄像机运动、速度变化、不同活动等因素的...

论文速读|Multi-Modal Disordered Representation Learning Network for TBPS.AAAI24

论文地址：MultiModalDisorderedRepresentationLearningNetworkforDescriptionBasedPersonSearch 代码地址：未开源（2025....

论文解读：《LAMM: Label Alignment for Multi-Modal Prompt Learning》

系列文章目录文章目录系列文章目录 LAMM:LabelAlignmentforMultiModalPromptLearning学习 1、论文细节理解 1、研究背景 2、论文贡献 3、方法框架 4、...

论文解读《MmAP : Multi-Modal Alignment Prompt for Cross-Domain Multi-Task Learning》

系列文章目录文章目录系列文章目录论文细节理解 1、研究背景 2、论文贡献 3、方法框架 4、研究思路 5、实验 6、限制论文细节理解 1.首先是稠密场景理解多任务，对每个输入样本进行语义分割、...

推荐系统论文：AdaMML: Adaptive Multi-Modal Learning for Efficient Video Recognition

摘要：

引言：

Tip：

相关工作：

高效的视频识别：

多模态学习：

自适应计算：

方法：