Advertisement

推荐系统论文:AdaMML: Adaptive Multi-Modal Learning for Efficient Video Recognition

阅读量:

摘要:

在本文中, 我们提出了一种称为 AdaMML 的自适应多模态学习框架,该框架能够根据输入条件为每个视频片段动态选择最优的模态,从而实现高效的视频识别.具体而言,当提供一个视频片段时,多模态策略网络将被用来决定识别模型应采用哪些模态进行处理,从而达到提升准确率和效率的目的.为了优化性能,我们采用了标准的反向传播技术对策略网络和识别模型进行了有效的联合训练.在四个具有挑战性的数据集上进行的大量实验表明,与传统方法相比,即不考虑输入而统一使用所有模态的方法相比,我们的自适应方法能够在相同条件下减少35%-55%的计算开销的同时保持较高的分类精度

引言:

视频包含多种多样的模式类型:RGB帧、运动(光流)以及音频信息。因此,在重视各模式特性基础上发展起来的多模态学习方法近年来受到了广泛关注。尽管在理论上取得了显著进展,在实际应用中由于长视频采集过程中的计算复杂性限制以及数据获取难度较高等因素的存在而导致其应用效果并不十分理想。在长序列视频中某些特定模式在特定动作类别识别过程中提供的信息具有冗余或无意义特征因而可能会影响整体识别效果的选择性使用则显得尤为重要在这种情况下仅依赖于所有输入模态的信息可能会带来负面影响因为冗余信息往往会导致有价值的信息被无价值的信息淹没此外不同模态之间存在计算资源需求差异因此通过选择性能良好且成本较低的模态方案能够有效降低计算负担从而提升整体识别效率

Tip:

视频中的RGB帧是指通过红、绿、蓝(RGB)颜色通道表示的图像帧。在视频中每一帧由像素构成,在每个像素中都包含着红、绿、蓝三个色彩通道的具体数值。这些数值共同决定了每个像素点的颜色以及其明暗程度。例如,在红色与绿色通道达到最大值(255)、而蓝色为最小值(0)的情况下,则呈现黄色画面效果。在每一幅画面中,RGB数据框记录了图像中的色彩与明暗信息,并以此形成视频的画面效果

footage 的光学流动:它表示在连续的画面帧间 pixel 的运动向量及其速率。 光学流动可用于表示 video 中物体移动、相机自身移动以及其他运动现象。 通过计算两个相邻 frame 之间的 pixel 亮度变化程度(通常用方差或能量度量),我们可以推断出 optical flow 的方向与大小。 在计算机视觉领域内,在动作检测、目标追踪以及三维重建等方面都有广泛应用。

在图1所示的场景中包含了来自该场景中八个均匀采样的连续帧图像序列。我们的问题在于:识别这段特定视频中的"割草"动作时是否需要所有八个片段都同时提供RGB和音频流?显然并非如此。因为经过分析发现,在第三帧和第六帧时间段内割草机运行时会伴随明显的音频特征出现;因此为了提高模型识别正确动作的可信度,在这两段时间内我们需要分别获取其对应的RGB和音频数据;而对于其余时间段(例如第一帧和最后一帧)则可以选择只获取一种模式的数据甚至跳过(如不获取),这样并不会影响整体准确性的判断;因此相比于全局统一多模态学习方案(即每一段都需要同时获取两种模式数据),本方法能够根据具体情况进行自适应选择输入模式从而优化计算资源分配;基于这一直觉我们提出了一种新的多模态学习视角即在复杂动作识别过程中对每个独立时间段进行自适应地选择最优输入模式以实现计算效率的最大化

在本文中,我们提出了AdaMML,这是一种创新性的可微分方法,用于根据输入条件选择最佳模式以实现高效的视频识别。具体而言,我们的核心思路在于学习一个模型(称为多模态策略网络),该模型可以根据每个片段决定使用或跳过每种模态的所有二元决策后验概率。由于这些决策函数是离散且不可分的,因此我们采用了高效的Gumbel-Softmax抽样方法[22],通过标准反向传播共同学习决策策略与网络参数,无需像[57,58]那样进行复杂的强化学习操作。所设计的目标函数不仅能够达到视频识别所需的竞争性能,还能够提高效率水平。我们证明了通过轻量级策略网络自适应地选择输入模态不仅可以显著减少计算开销(例如,在Kinetics-Sounds[2]与ActivityNet[6]上与仅采用所有模态加权融合的基线相比,分别降低了约47.3%与35.2% GFLOPS),而且其准确率表现也持续优于现有先进方法

相关工作:

我们的研究工作涵盖了三大核心研究领域:先进视频识别、多模态学习与动态计算模型

高效的视频识别:

视频识别被视为计算机视觉领域当前最活跃和重要的研究方向之一

多模态学习:

多模态学习领域已从多个维度展开了深入研究。例如基于双流架构实现多种模态决策融合的分类模型,并探讨了一种以单一模态为输入并预测另一种模态特征的技术。近期研究成果已在多模态网络联合训练方面取得了显著进展,并非传统方法那样对给定输入样本自动分配权重以突出重点的技术。所提出的AdaMML框架还与此前在联合建模仿射与运动建模方面的研究相互呼应,并非专注于单一领域而是聚焦于融合RGB信号与光流信息的工作。此外,在多模态学习领域中采用神经架构搜索方法来设计多样化的融合方案已成为主流趋势之一。相比之下,在现有技术中普遍存在的问题是缺乏统一性与灵活性统一性的解决方案尚未得到广泛认可;我们提出了一种针对特定视频片段自动选择最优模式的通用框架该框架能够根据实际需求动态分配权重以实现精准识别从而显著提升了视频识别的整体效率

自适应计算:

近年来提出了多种自适应计算方案旨在提升运算效率。BlockDrop能够根据输入样本动态决定执行哪些网络层而无需预先设定固定的架构策略这使得其具备更强的灵活性与适应性。GaterNet引入了一种门控机制用于指导主网络关注关键通道从而实现资源的有效分配与优化配置。通过识别对分类无显著贡献的区域通道门控网络实现了对该区域对应输入通道子集的跳过计算从而降低了整体运算开销并提高了处理效率。SpotTune通过微调或预训练的方式优化信息路由机制实现任务特定的信息传递效率提升这使得其在目标检测等场景中表现出色。文献[34 15]提出了一种自适应定位快速目标检测的方法该方法能够在不同复杂度的任务中提供均衡的表现同时兼顾速度与准确性要求。尽管我们的方法在一定程度上受到上述方法启发但在本文研究中我们致力于根据输入实例自动选择最优特征路径从而进一步提升视频识别性能。

方法:

给定一个包含K个输入模态

eft  M_{1}, M_{2},..., M_{K} ight

的片段序列

eft  s_{1},s_{2},...,s_{T} ight

对于视频V中的某个部分而言,在进行后续处理时我们的研究重点在于构建一个能够根据实际场景自动优化输入模态组合的选择机制

方法概述:

考虑到这一任务迅速变得难以解决(即当潜在配置数量急剧上升时),我们开发了一种高效的策略网络(其中包含一个轻量级的联合特征提取模块以及一个LSTM处理单元)。该网络能够对每个输入片段生成一个二进制决策向量(即保留或放弃某输入模态),从而实现对多模态数据的有效选择而非人工决策方案)。

在训练阶段, 策略网络与识别网络采用 Gumbel-Softmax 抽样法进行协同训练. 测试阶段先将输入视频片段输入至策略网络, 根据输出结果确定最适用的模态类型, 接着选择确定好的模块传递至识别子网, 从而实现对片段级别的预测结果生成. 最后系统将所有分段级预测结果取平均值作为视频级别的预测输出. 需要指出的是, 在计算资源有限的情况下(如使用 MobileNetv2 模型), 这种轻量化设计带来的额外计算开销几乎可以忽略不计.

学习型自适应多模态策略:
多模态策略网络:

该策略网络由一个简洁高效的联合特征提取器与一个LSTM模块组成,旨在模拟视频中各时间步之间的因果关系。在第t个时间步,LSTM接收当前视频段的特征序列作为输入以捕捉时空动态信息。

s_{t}

,先前隐藏的状态

h_{t-1}

、单元输出

o_{t-1}

以及联合特征

f_{t}

来计算当前隐藏状态

h_{t}

和单元状态

o_{t}

.

基于隐藏状态后的情况下

eft

如上文所述,在作出决策后

使用 Gumbel-Softmax 采样进行训练:

对于每一个输入段中的各个模态类型,在决策过程中可以选择跳过或者采用两者之一。

Gumbel-Softmax技巧是一种高效可靠的工具,并非传统意义上的固定采样方法而是通过对应的Gumbel-Softmax分布生成一组可变样本来代替原始固定的样本。具体而言,在时间步长t的处理过程中

z_{k}=FC_{k}

为每个模态从隐藏状态

h_{t}

生成logits

z_{k}psilon athbb{R}^{2}

基于模态k的策略网络预测出分数这一指标后,随后采用Gumbel-Max技巧从分类分布中采样出具体的类别标签.

其中,

G_{i,k}=-log

是标准的Gumbel 分布,

U_{i,k}

从区间(0,1)上的独立同分布均匀概率分布中抽取样本。方程 2 中 arg max 运算的无差别特性使得 Gumbel-Softmax 分布被视为其连续松弛技术的一种替代方案。基于这一性质,在 Gumbel-Softmax 分布中进行采样能够为离散样本建立反向传播路径到策略网络

at{P_{k}}

表示为one-hot向量的形式,在机器学习和自然语言处理领域中具有重要的应用价值。
二元的one-of-n编码方案常用于离散分类或标签的表示方法。
给定一个类别集合C={c₁,c₂,…,cₙ}其中n为类别总数。
那么对于该集合中的每一个类别cᵢ其对应的二元one-hot编码是一个长度为n的向量其中仅第i个元素取值为1其余元素均为0。
例如对于三个类别的集合{A B C}对应的二元编码分别为:
A: [1 0 0]
B: [0 1 0]
C: [0 0 1]
随后通过应用Softmax函数将这些二元编码松弛为实值的概率分布向量P_k:

其中,ipsilon eft  0,1 ight ,kpsilon eft ,

au

就是一个参数,用于控制

P_{k}

的离散性,当

im_{au ightarrow +nfty }P_{k}

收敛到均匀分布时,

im_{au ightarrow 0 }P_{k}

成为单热向量。更具体地说,当

au

当趋近于零时,在Gumbel Softmax分布中生成的样本几乎等同于离散分布的结果(即几乎与单热向量相同)。综上所述,在前馈传递过程中我们采用公式2来进行策略采样;而在反向传递过程中则通过计算公式3中连续性松弛梯度来近似替代离散采样的梯度

损失函数:

heta =eft  heta _{hi },heta _{LSTM },heta {FC{1}},...heta {FC{k}},heta _{si _{1}},..,heta _{si _{k}} ight

表示框架中可训练的总参数,其中

heta _{hi }

heta _{LSTM}

分别代表策略网络中使用的联合特征提取器和 LSTM 的参数。

heta {FC{1}},...heta {FC{k}}

代表从LSTM隐藏状态生成策略对数的全连接层的参数,

heta _{si _{1}},..,heta _{si _{k}}

由...组成的K个子网络所使用的参数,在协同训练过程中将尽可能降低以下损失指标以提升预测精度,并尽量避免选择那些复杂度较高的计算模式。

其中,

P

和y表示训练视频样本V的预测和one - hot编码的真实标签,

ambda _{k}

表示处理第k个模态的相关成本。

U_{k}

表示第k个模态的决策策略,

C_{k}=^{2}

定义一个指标变量用于描述当预测结果正确时,在全部 C 个视频片段中选择第 k 种模式的片段比例。该指标通过数学公式...来定义

amma

来表示预测错误,其中,

ambda _{k}

我们通过调节参数来平衡效率与准确性之间的关系。这些参数被用来调整模型的决策阈值,在满足预设预算约束下生成多种不同的模型。等式 4 的第一部分代表了衡量分类质量的标准交叉熵损失;而第二部分则引导网络学习一种策略——例如,在识别视频时优先处理RGB帧比处理音频流所需的计算量更高。

实验:

实验装置:
数据库:

Kinematics-Sounds: 是 Kinematics 的一个子集, 包含约 2.3 十万份训练样本和约 1.5 千份测试样本, 覆盖 31 种不同动作类别。

ActivityNet-v1.3:包含 10024 个训练视频和 4926 个验证视频,涉及 200 个动作类别。

FCVID:有 45611 个用于训练的视频和 45612 个用于测试的视频,涉及 239 个类别。

Mini-Sports1M 是 Sports1M 数据集的一个完整子集,在训练阶段每个类别中有30个示例视频,在测试阶段每个类别中有10个评估样本,并涵盖总共487种不同的动作类型

数据输入:

为了提高效率和准确性,在本研究中采用了一个单通道的音频频谱数据作为输入(256×256即1.28秒的音频段)。鉴于计算光流具有较高的计算成本,在本研究中我们借助RGB帧差作为替代方案,在我们的策略网络中执行光流运算,并根据需求动态生成相应的光流特征向量。该方法借助RGB帧差作为替代方案,在我们的策略网络中执行光流运算,并根据需求动态生成相应的光流特征向量。我们借鉴了光流算法中的相关技术,在该方法的基础上引入了RGB帧间差分机制。通过这一机制能够有效减少所需的计算资源消耗,并生成一个大小为15×8×224×224的输入片段供后续处理使用。对于非音频模态的数据,在策略网络中我们采取了进一步子采样的方法来降低数据维度和复杂度

实施细节:

在识别网络领域中,在RGB以及流模式下采用与TSN相似的ResNet-50架构,在音频模式下则应用MobileNetV2。针对每一种模式的预测结果进行可学习权重的后期融合即可得到最终预测结果。策略网络中应用MobileNetV2提取所有模态的特征,并通过两个维度均为2,048的额外全连接层将各模态特征串联起来作为联合特征输入。LSTM模型设定其隐藏层单元数量为256个,并在输出层设置K个并行全连接层以生成每种模态对应的二元决策策略。分别从计算成本的角度来看,在处理RGB+音频数据时模型消耗约0.76GFLOPs,在识别任务上则达到14.52GFLOPs

训练细节:

在策略学习过程中, 我们发现在随机初始化策略的情况下, 同时优化准确性和效率的效果并不理想. 因此, 我们采用了基于ImageNet预训练权重的单模态模型对策略网络进行固定, 并对其实施5次热身训练. 接着, 我们轮流训练策略网络与识别网络各20个周期. 在完成这一过程后, 我们利用固定的策略网络对手动识别网络进行了10次微调. 为了保证实验结果的一致性, 所有对比实验均采用相同的初始条件及总训练周期数. 每个实验均使用5个视频片段作为数据输入. 在算法实现方面, 我们设定初始温度τ为5, 并在其训练过程中逐步退火至0. 参数λk被定义为跨模式计算负荷比值, 而γ值设定为10. 更详细的实现细节及完整代码可在附录中查阅.

基线:

我们将我们的方法与一系列基准模型及现有方法进行了系统对比分析。首先,在分析单模态基准时, 我们采用了独立训练各模式识别模型的方法. 其次, 为了全面评估性能, 我们将其与联合训练模型(称为"加权融合")进行了对比研究, 该联合训练方式通过可学习权重实现后期融合, 而并非简单地综合所有模式信息(而是根据输入自动选择最优模式组合)。这种分类性能卓越但计算开销较大的基准方案展现了强大的分类能力. 最后, 为了验证其实用价值, 我们将该方法与当前先进的视频识别技术进行了对比测试, 包括FrameGlimpse、FastForward、AdaFrame、LiteEval以及ListenToLook等主流算法.

评价指标:

在评估视频级目标检测性能时, 我们具体采用两种指标: 具体而言, 在评估视频级目标检测性能时, 我们采用的是"视频级mAP"以及"top - 1准确率", 其中前者是基于10段均值预测的采样方法而得出的结果指标; 后者则基于每个样本进行预测后取最优结果的方式得到. 此外, 我们还探讨了自适应模态的选择比例, 其中, 在测试集上的策略网络选择了不同模态下的候选片段数量占比作为主要考量因素. 最后, 我们以千兆浮点运算(GFLOPs)作为衡量计算复杂度的标准.

主要结果:
与加权融合基线对比:
与现有方法的比较:

总结:

消融实验等去原文自行观看。

全部评论 (0)

还没有任何评论哟~