论文介绍--Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning

阅读量：

Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning 这篇论文发表在2019年的CVPR上。作者Nayyer Aafaq等人来自西澳（大利亚）大学。这是一篇改进视频描述工作的论文。作者观察到近期的视频描述工作主要集中于改进解码器（decoder），而较少关注特征提取的部分。作者认为从视频中提取更好的特征也是非常重要的。这篇论文主要有两个贡献：第一就是用层级的短时傅里叶变换对卷积网络提取出来的特征进行浓缩，把时间信息融入其中；第二就是用物体检测模型从视频中提取高层的语义信息，丰富编码器提炼的视频表示。

InceptionResNetv2以及C3D分别应用于二维卷积网络与三维卷积网络中。YOLO在此情境下则被部署为物体检测模型。

方法

视频描述这个任务就是在给定视频

，生成一句话

（包含w个单词）来精确描述视频的内容。在从视频中提取出特征

后，普遍使用的优化目标函数就是句子中每个单词概率对数的加和

。

如果用

表示解码器映射，

表示编码器映射，

表示句子，那么我们可以把视频描述表示为

。接下来介绍作者对

的改进。

在这里，视频的特征表示主要由四部分组成。

2D卷积网络从视频中提取出特征

，3D卷积网络从视频中提取出特征

。这里

在第t帧的视频图像中提取出的特征向量被定义为 $F_t$ 。传统的处理方法通常会在2D和3D卷积网络的输出中沿着时间轴计算平均值来获得每个视频的一个向量化表示。然而，在这里作者采用了分层短时傅里叶变换T（STFT），并将其应用于整个时间序列数据上以便整合到最终的结果中。具体而言，在开始分析之前对方波的时间序列执行了傅里叶变换，并获得了相应的频谱信息。

， $_{1}extrm{a}_j^i=n athbb{R}^f$ ，这里的

表示第

个视频，

表示第

个神经元，

表示总共有

个时间点。然后将整个时间段平均分成两段

_{21}a_j^in athbb{R}^h, _{22}a_j^in athbb{R}^{f-h}

，分别做傅里叶变换得到

siightarrow arsigma_{21}, siightarrow arsigma_{22}

。最后将整个时间段分成四段

_{311}a_j^i, _{312}a_j^i, _{321}a_j^i, _{322}a_j^i

，分别做傅里叶变换得到

siightarrow arsigma_{311}, siightarrow arsigma_{312}

，

siightarrow arsigma_{321}, siightarrow arsigma_{322}

。然后将得到的傅里叶变换结果拼接在一起得到 arsigma= 。这就是层级短时傅里叶变换

。用

分别对

和

做操作，就可以得到

。

接下来就是对视频的语义和空间变化进行编码。

通过对物体检测模型的输出结果进行编码，我们可以得到

。对视频人工描述语句进行单词切分和聚合，可以得到词典

。对物体检测模型的输出物体标签进行聚合可以得到

。对两者取交集以方便后续处理

。用物体检测模型分别对q帧图像进行检测，可以得到物体

概率

，物体出现频率

，物体帧与帧之间的位移 $v_i^z=, elta_xz=\widetilde{x}{z+1}-idetilde{x}^z, elta_yz=\widetilde{y}{z+1}-idetilde{y}^z$ 。这里

表示同一类型的物体在同一图像中出现的最大数量。当存在多个物体时，请关注各物体的位置信息。

是位置平均值。于是空间变化的特征

定义为 amma=, arsigma_i= 。这个特征含义十分丰富，包含了物体的出现概率，出现频率和帧与帧之间的位移。

通过对动作分类模型输出概率的编码，我们可以得到

。我们用

该模型用于生成的动作分类标签集合被定义为所有可能的动作类别。通过与预定义的动作分类标签字典D进行交集运算，我们能够获得实际应用中使用的具体标签集合。

。第四种特征定义如下 ta=, , ..., 。这里的

表示第i种动作是否是动作分类模型的预测结果，1表示是，0表示否。

表示第i种动作的预测概率。

把上面四种特征进行拼接就得到了输入解码器的特征。

解码器

本文的主要关注点并非集中在解码器上。简而言之所述，作者采用了双层GRU架构作为解码器用于生成视频描述的句子。

实验

作者在Youtube2Text和MSR-VTT两个数据集上进行了系统性实验。该文中所采用的词嵌入模型基于'fasttext'实现。论文中关于模型指标计算的部分存在表述不够清晰的问题。

We used the Microsoft COCO server to compute our results.

实际上，并没有为视频描述指标提供具体的计算方法。MS COCO在GitHub上公开了官方提供的计算代码。

结果比较

首先是在MSVD（Youtube2Text）上的比较

必须指出的是，在本论文作者声称已达到当前最先进水平（state-of-the-art）的情况下（也就是宣称处于世界领先地位），实际上他的成果远逊于当时全球顶尖水平（world-leading）。该论文发表于CVPR 2019会议，在此之前相关研究包括：Efficient Convolutional Network for Online Video Understanding（ECO）、Sibling Convolutional Encoder for Video Captioning（SibNet），以及Multi-Task Video Captioning with Video and Entailment Generation（MTC）。这些研究均表现得优于当前论文。

下面他在MSR-VTT上的结果

总结

本文将采用层级短时傅里叶变换（Hierarchical Short Time Fourier Transform）、基于卷积神经网络（CNN）的图像分类模型以及基于物体检测（Object Detection Model）的方法的结果作为视频表示的基础内容之一，并以此提升解码器输出的视频描述质量。

全部评论 (0)

还没有任何评论哟~

论文介绍--Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning

SpatioTemporalDynamicsandSemanticAttributeEnrichedVisualEncodingforVideoCaptioning这篇论文发表在2019年的CVPR上...

论文介绍 -- Semantic Compositional Networks for Visual Captioning

SemanticCompositionalNetworkforVisualCaptioning是2017年发表在CVPR上的一篇论文。它的作者主要来自于杜克大学、清华大学和微软研究院（美国）。在这篇论...

Preserving Semantic and Temporal Consistency for Unpaired Video-to-Video Translation论文解读

原文：PreservingSemanticandTemporalConsistencyforUnpairedVideotoVideoTranslation 1、介绍此论文研究了非配对的两个视频之间的...

论文介绍--Memory-Attended Recurrent Network for Video Captioning

MemoryAttendedRecurrentNetworkforVideoCaptioning这篇论文发表在2019年的CVPR上。作者WenjiePei等人来自腾讯和南方科技大学。研究动机目前...

Learning Spatio-Temporal Transformer for Visual Tracking（论文翻译）

目录摘要 1.引言 2.相关工作 3.方法 3.1transformer的基准 3.2时空transformer跟踪 4.实验 4.1实施细节 4.2结果和比较 4.3基于组件的分析 4.4与其他框...

Divide and Conquer:Question-Guided Spatio-Temporal Contextual Attention for Video Question Answering

动机 1. 理解问题和寻找答案的线索是视频问答的关键。 VQA任务主要分为图像问答（ImageQA）和视频问答（VideoQA）两种，针对不同视觉材料的自然语言问题进行回答。通常，理解问题并在给定的视...

Efficient Spatio-Temporal Recurrent Neural Network for Video Deblurring 论文解读

目录评论介绍方法整体框架RDB Cell的设计GSA 模块的设计Re-constructor 模块的设计损失函数的设计实验GOPRO和REDS数据集的定量分析结果GOPRO数据集的可视化结果REDS数...

AAAI2024论文合集解读|Exploring Temporal Feature Correlation for Efficient and Stable Video Semantic

论文标题 ExploringTemporalFeatureCorrelationforEfficientandStableVideoSemanticSegmentation探索时间特征相关性以实现高效...

2020-ASRM: A Semantic and Attention Spatio-temporal Recurrent Model for Next Location Prediction

[1]ZhangX,LiB,SongC,etal.SASRM:ASemanticandAttentionSpatiotemporalRecurrentModelforNextLocationPredi...

Real-Time Video Super-Resolution with Spatio-Temporal Networks and Motion Compensation 论文笔记

RealTimeVideoSuperResolutionwithSpatioTemporalNetworksandMotionCompensation论文笔记摘要作者的目的是引进一个spatiot...

是否确定退出登录?

论文介绍--Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning

方法

解码器

实验

结果比较

总结

全部评论 (0)

相关文章推荐

论文介绍--Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning

论文介绍 -- Semantic Compositional Networks for Visual Captioning

Preserving Semantic and Temporal Consistency for Unpaired Video-to-Video Translation论文解读

论文介绍--Memory-Attended Recurrent Network for Video Captioning

Learning Spatio-Temporal Transformer for Visual Tracking（论文翻译）

Divide and Conquer:Question-Guided Spatio-Temporal Contextual Attention for Video Question Answering

Efficient Spatio-Temporal Recurrent Neural Network for Video Deblurring 论文解读

AAAI2024论文合集解读|Exploring Temporal Feature Correlation for Efficient and Stable Video Semantic

2020-ASRM: A Semantic and Attention Spatio-temporal Recurrent Model for Next Location Prediction

Real-Time Video Super-Resolution with Spatio-Temporal Networks and Motion Compensation 论文笔记