论文介绍--Memory-Attended Recurrent Network for Video Captioning

阅读量：

该研究论文于2019年发布于CVPR期刊上。作者Wenjie Pei等研究人员分别就职于腾讯科技与南方科技大学。

研究动机

现有用于生成视频描述的主要架构多采用编码器-解码器模式。然而这种架构存在潜在缺陷且未能有效获取来自外部未包含的信息。为了消除仅基于当前片段生成描述所带来的局限性，在主流模型中引入了一种称为记忆体（memory structure）的机制。该机制能够有效地将词汇表中的词语与其对应的视觉内容建立关联。来自广泛收集的数据集的内容通过引入该机制后，在处理每个输入片段时能更有效地提取相关信息并进行分析研究。论文表明这种改进使得生成的文字描述质量显著提升，并且能更明确地捕捉到词语之间的关系

模型概述

该论文引入了名为Memory-Attended Recurrent Network（MARN）的一种新模型。该模型由三个关键组件构成：编码器模块、基于注意力机制设计的循环解码器以及带有增强记忆功能的部分。其中包含基于注意力机制的设计以及带有增强记忆功能的部分。

编码器

编码器由两个组成部分构成：其中一部分采用的是2D卷积架构来提取二维视觉特征；另一部分则采用了3维（3D）卷积架构以获取三维视觉信息。在具体实施过程中，则会基于设计阶段采用了ResNet-101模型来构建该类别的2D卷积架构；而针对3维空间建模，则采用了ResNeXt-101结构并结合Kinetics数据集进行过预学习工作。此外，在该类别的2D卷conv组件中，则专注于分析单个视频帧中的视觉特征表达能力

经过处理后，该二维数据集 $F_{2D}=\{f_1, f_2, ..., f_L\}$ ，其中每个 $f_l$ 属于 $\mathbb{R}^d$ 空间的结果为：3D卷积网络处理所得的特征其结果为：

F_{3D}=v_1, v_2, ..., v_N, v_nn athbb{R}^c

。然后将两者投射到相同的隐藏空间中得到编码器的输出：

基于注意力的解码器

循环解码器主要由带有柔性注意力机制的长短期记忆体（soft-attention LSTM）构成。作者在这里采用了GRU替代LSTM。柔性注意力机制通过上一次迭代产生的隐藏状态与当前输入相结合来计算每帧视频 $f_i'$ 对应的权重 $a_i$ 。然后通过对各个视频帧特征施加这些权重进行加权求和来生成当前迭代的视频特征输入。按照以下公式计算得到了第t次迭代二维视频特征的加权和。 $a_{i,t}=f_{att}(h_{t-1}, f_i'), c_{t,2D}=\sum_{i=1}^L a_{i,t} f'_i$ "

接着按照下式计算得到三维视频特征的加权和。

$a_{i,t}'=f_{att}(h_{t-1}, v_i'), c_{t,3D}=\sum_{i=1}^{N}a_{i,t}' v_i'$

将两者连接在一起，作为GRU的视频特征输入。

$c_t=[c_{t,2D}; c_{t,3D}]$

对GRU进行迭代运算，得到当前隐藏状态

，通过softmax得到当前迭代的单词的概率预测

。

$h_t=GRU(h_{t-1}, c_t, e_{t-1})$

$P_b(w_k)=\frac{\exp{(W_k h_t + b_k)}}{\sum_{i=1}^K \exp{(W_i h_t+ b_i)}}$

带记忆体的解码器

该模型中所涉及的记忆体（memory structure）实际上是一个复杂的机制系统。其主要功能是记录并存储词汇表中每一个特定单词 $w$ 及其对应的描述内容。

的映射：

。描述主要由三部分组成，第一部分是相关视觉信息

，第二部分是单词嵌入向量

，第三部分是辅助信息。对于相关视觉信息，作者对每个和第

个单词相关视频保留了

帧特征，做加权和，接着将所有相关视频做加和得到

，如下式所示。

g_r=rac{um_{i=1}^I um_{j=1}^k }{um_{i=1}^I um_{j=1}^k a_{i,j}} + rac{um_{i=1}^I um_{j=1}^k }{um_{i=1}^I um_{j=1}^k a_{i,j}'}

作者从数据集中提供的视频类别信息提取出与单词

相关的作为该单词的辅助信息。最后记忆体中的映射可以表示如下

。

作者使用了一个双层感知机对记忆

进行解码，得到每个单词的相关分数（relevant score）

。
$q_i=v^op anh{}$

是利用注意力机制做过加权和的视觉信息，

是上一步的单词嵌入向量，

是上一步的注意力解码器的隐藏状态。对视频视觉信息

和单词

在记忆体中的视觉信息

的相关性进行建模。对前一步的单词

和这一步候选单词

之间相关性建模。然后用相关分数预测本次迭代各个单词的概率。

解码器最后输出

通过融合注意力解码器

和记忆体解码器

的结果，模型输出最后对单词的预测。

是平衡两部分解码结果的超参。

训练

将训练划分为两个阶段；第一阶段仅针对注意力解码器进行训练；第二阶段则引入带记忆体的解码器。

另外作者提出了注意力一致性的损失函数（Attention-Coherent Loss, AC Loss），如以下公式所示。

L_a=um_{n=1}N\sum_{t=1}T um_{i=2}^L |a_{i,t}^{} - a_{i-1, t}^{}|

在这个优化阶段, 该损失函数度量了相邻帧间注意力权重的变化幅度. 在视频场景中, 相邻两帧画面的主要相关性高于相隔较远的帧对. 人类观察者对相邻画面间的注意力变化呈现相对稳定的特性. 在模型优化过程中, 努力降低这一指标有助于使同一迭代阶段内各帧间注意力权重变化更加平稳.

实验结果

作者在MSVD和MSR-VTT两个数据集做了实验。

我们进行了各方法的有效性实验研究。结果显示，在随方法数量增加的过程中, 模型性能得到了显著提升

本研究中对不同特征重要性的评估结果显示，在引入更多相关特征时能够显著提高模型性能

下面是模型MARN在MSR-VTT数据集上的实验结果。

尽管这里作者宣称自己的方法在性能上超越了现有的最佳方案，在对比实验中发现一项关键的技术改进显著提升了模型的效果。然而，在MSR-VTT评估中Reinforced Video Captioning with Entailment Rewards的研究成果优于本文所提出的方法

下面是模型在MSVD上的结果。

与MSR-VTT基于相同的框架，在2017年相关领域的研究Multi-Task Video Captioning with Video and Entailment Generation在MSVD的表现优于现有研究

总结

本研究在通用编码器-解码器架构中集成了一种记忆体组件以补充并强化解码过程中的信息处理能力

全部评论 (0)

还没有任何评论哟~

论文介绍--Memory-Attended Recurrent Network for Video Captioning

MemoryAttendedRecurrentNetworkforVideoCaptioning这篇论文发表在2019年的CVPR上。作者WenjiePei等人来自腾讯和南方科技大学。研究动机目前...

ACL20｜MART: Memory-Augmented Recurrent Transformer for Coherent Video Paragraph Captioning

文章目录背景 Motivation RelatedWork Approach Data Metrics implementationdetails 背景腾讯AILab主导，与美国北卡罗来纳大学教堂...

论文复现“Reconstruction Network for Video Captioning“

目录一、overview 二、代码复现三、遇到的问题一、overview 这篇文章提出了一个新的编译码重构网络（RecNet），该网络的编码器解码器（encoderdecoder）利用视频的前向...

ACL 2020 MART: Memory-Augmented Recurrent Transformer for Coherent Video Paragraph Captioning

动机 1.本文目标是生成一个段落（多个句子），条件是输入具有几个预定义的事件片段的视频。为视频生成多句子描述是最具挑战性的任务之一，因为它不仅要求视频的视觉相关性，而且要求段落中句子之间基于语篇的连贯...

【论文阅读笔记】Recurrent fusion network for image captioning.

Recurrentfusionnetworkforimagecaptioning. ECCV2018. W.Jiang,L.Ma,Y.G.Jiang,W.Liu,andT.Zhang. 问题现有的基...

论文介绍 -- ECO: Efficient Convolutional Network for Online Video Understanding

ECO:EfficientConvlutionalNetworkforOnlineVideoUnderstanding这篇论文发表于2018年ECCV上。作者MohammadrezaZolfaghar...

论文阅读KMN：Kernelized Memory Network for Video Object Segmentation

这篇论文发表在ECCV2020上面，是对于STM的改进。STM存在一个缺点，就是在做query和memory的key之间的matching时，将所有的情况都建立了联系，这种处理是一种nonlocal的...

论文介绍--Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning

SpatioTemporalDynamicsandSemanticAttributeEnrichedVisualEncodingforVideoCaptioning这篇论文发表在2019年的CVPR上...

Efficient Spatio-Temporal Recurrent Neural Network for Video Deblurring 论文解读

目录评论介绍方法整体框架RDB Cell的设计GSA 模块的设计Re-constructor 模块的设计损失函数的设计实验GOPRO和REDS数据集的定量分析结果GOPRO数据集的可视化结果REDS数...

《RVOS：End-to-End Recurrent Network for Video Object Segmentation》论文笔记

参考代码：RVOS 1\.概述导读：这篇文章提出一个可以实现多目标视频分割的方法RVOS（RecurrentnetworkformultipleobjectVideoObjectSegmentati...

是否确定退出登录?

论文介绍--Memory-Attended Recurrent Network for Video Captioning

研究动机

模型概述

编码器

基于注意力的解码器

带记忆体的解码器

解码器最后输出

训练

实验结果

总结

全部评论 (0)

相关文章推荐

论文介绍--Memory-Attended Recurrent Network for Video Captioning

ACL20｜MART: Memory-Augmented Recurrent Transformer for Coherent Video Paragraph Captioning

论文复现“Reconstruction Network for Video Captioning“

ACL 2020 MART: Memory-Augmented Recurrent Transformer for Coherent Video Paragraph Captioning

【论文阅读笔记】Recurrent fusion network for image captioning.

论文介绍 -- ECO: Efficient Convolutional Network for Online Video Understanding

论文阅读KMN：Kernelized Memory Network for Video Object Segmentation

论文介绍--Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning

Efficient Spatio-Temporal Recurrent Neural Network for Video Deblurring 论文解读

《RVOS：End-to-End Recurrent Network for Video Object Segmentation》论文笔记