论文介绍--Memory-Attended Recurrent Network for Video Captioning
该研究论文于2019年发布于CVPR期刊上。作者Wenjie Pei等研究人员分别就职于腾讯科技与南方科技大学。
研究动机
现有用于生成视频描述的主要架构多采用编码器-解码器模式。然而这种架构存在潜在缺陷且未能有效获取来自外部未包含的信息。为了消除仅基于当前片段生成描述所带来的局限性,在主流模型中引入了一种称为记忆体(memory structure)的机制。该机制能够有效地将词汇表中的词语与其对应的视觉内容建立关联。来自广泛收集的数据集的内容通过引入该机制后,在处理每个输入片段时能更有效地提取相关信息并进行分析研究。论文表明这种改进使得生成的文字描述质量显著提升,并且能更明确地捕捉到词语之间的关系
模型概述
该论文引入了名为Memory-Attended Recurrent Network(MARN)的一种新模型。该模型由三个关键组件构成:编码器模块、基于注意力机制设计的循环解码器以及带有增强记忆功能的部分。其中包含基于注意力机制的设计以及带有增强记忆功能的部分。

编码器
编码器由两个组成部分构成:其中一部分采用的是2D卷积架构来提取二维视觉特征;另一部分则采用了3维(3D)卷积架构以获取三维视觉信息。在具体实施过程中,则会基于设计阶段采用了ResNet-101模型来构建该类别的2D卷积架构;而针对3维空间建模,则采用了ResNeXt-101结构并结合Kinetics数据集进行过预学习工作。此外,在该类别的2D卷conv组件中,则专注于分析单个视频帧中的视觉特征表达能力

经过处理后,该二维数据集F_{2D}=\{f_1, f_2, ..., f_L\},其中每个f_l属于\mathbb{R}^d空间的结果为:3D卷积网络处理所得的特征其结果为:

。然后将两者投射到相同的隐藏空间中得到编码器的输出:

基于注意力的解码器
循环解码器主要由带有柔性注意力机制的长短期记忆体(soft-attention LSTM)构成。作者在这里采用了GRU替代LSTM。柔性注意力机制通过上一次迭代产生的隐藏状态与当前输入相结合来计算每帧视频f_i'对应的权重a_i。然后通过对各个视频帧特征施加这些权重进行加权求和来生成当前迭代的视频特征输入。按照以下公式计算得到了第t次迭代二维视频特征的加权和。a_{i,t}=f_{att}(h_{t-1}, f_i'), c_{t,2D}=\sum_{i=1}^L a_{i,t} f'_i"
接着按照下式计算得到三维视频特征的加权和。
a_{i,t}'=f_{att}(h_{t-1}, v_i'), c_{t,3D}=\sum_{i=1}^{N}a_{i,t}' v_i'
将两者连接在一起,作为GRU的视频特征输入。
c_t=[c_{t,2D}; c_{t,3D}]
对GRU进行迭代运算,得到当前隐藏状态

,通过softmax得到当前迭代的单词的概率预测

。
h_t=GRU(h_{t-1}, c_t, e_{t-1})
P_b(w_k)=\frac{\exp{(W_k h_t + b_k)}}{\sum_{i=1}^K \exp{(W_i h_t+ b_i)}}
带记忆体的解码器
该模型中所涉及的记忆体(memory structure)实际上是一个复杂的机制系统。其主要功能是记录并存储词汇表中每一个特定单词w及其对应的描述内容。

的映射:

。描述主要由三部分组成,第一部分是相关视觉信息

,第二部分是单词嵌入向量

,第三部分是辅助信息。对于相关视觉信息,作者对每个和第

个单词相关视频保留了

帧特征,做加权和,接着将所有相关视频做加和得到

,如下式所示。

作者从数据集中提供的视频类别信息提取出与单词

相关的作为该单词的辅助信息。最后记忆体中的映射可以表示如下

。
作者使用了一个双层感知机对记忆

进行解码,得到每个单词的相关分数(relevant score)

。


是利用注意力机制做过加权和的视觉信息,

是上一步的单词嵌入向量,

是上一步的注意力解码器的隐藏状态。
对视频视觉信息

和单词

在记忆体中的视觉信息

的相关性进行建模。
对前一步的单词

和这一步候选单词

之间相关性建模。然后用相关分数预测本次迭代各个单词的概率。

解码器最后输出
通过融合注意力解码器

和记忆体解码器

的结果,模型输出最后对单词的预测。


是平衡两部分解码结果的超参。
训练
将训练划分为两个阶段;第一阶段仅针对注意力解码器进行训练;第二阶段则引入带记忆体的解码器。
另外作者提出了注意力一致性的损失函数(Attention-Coherent Loss, AC Loss),如以下公式所示。

在这个优化阶段, 该损失函数度量了相邻帧间注意力权重的变化幅度. 在视频场景中, 相邻两帧画面的主要相关性高于相隔较远的帧对. 人类观察者对相邻画面间的注意力变化呈现相对稳定的特性. 在模型优化过程中, 努力降低这一指标有助于使同一迭代阶段内各帧间注意力权重变化更加平稳.
实验结果
作者在MSVD和MSR-VTT两个数据集做了实验。
我们进行了各方法的有效性实验研究。结果显示,在随方法数量增加的过程中, 模型性能得到了显著提升

本研究中对不同特征重要性的评估结果显示,在引入更多相关特征时能够显著提高模型性能

下面是模型MARN在MSR-VTT数据集上的实验结果。

尽管这里作者宣称自己的方法在性能上超越了现有的最佳方案,在对比实验中发现一项关键的技术改进显著提升了模型的效果。然而,在MSR-VTT评估中Reinforced Video Captioning with Entailment Rewards的研究成果优于本文所提出的方法
下面是模型在MSVD上的结果。

与MSR-VTT基于相同的框架,在2017年相关领域的研究Multi-Task Video Captioning with Video and Entailment Generation在MSVD的表现优于现有研究
总结
本研究在通用编码器-解码器架构中集成了一种记忆体组件以补充并强化解码过程中的信息处理能力
