Advertisement

论文介绍--Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning

阅读量:

Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning 这篇论文发表在2019年的CVPR上。作者Nayyer Aafaq等人来自西澳(大利亚)大学。这是一篇改进视频描述工作的论文。作者观察到近期的视频描述工作主要集中于改进解码器(decoder),而较少关注特征提取的部分。作者认为从视频中提取更好的特征也是非常重要的。这篇论文主要有两个贡献:第一就是用层级的短时傅里叶变换对卷积网络提取出来的特征进行浓缩,把时间信息融入其中;第二就是用物体检测模型从视频中提取高层的语义信息,丰富编码器提炼的视频表示。

InceptionResNetv2以及C3D分别应用于二维卷积网络与三维卷积网络中。YOLO在此情境下则被部署为物体检测模型。

方法

视频描述这个任务就是在给定视频

V

,生成一句话

S=W_1, W_2, ..., W_w

(包含w个单词)来精确描述视频的内容。在从视频中提取出特征

v

后,普遍使用的优化目标函数就是句子中每个单词概率对数的加和

E=-um_{t=1}^w og{Pr}

如果用

M

表示解码器映射,

Q

表示编码器映射,

S

表示句子,那么我们可以把视频描述表示为

Mightarrow S

。接下来介绍作者对

Q

的改进。

在这里,视频的特征表示主要由四部分组成v=

2D卷积网络从视频中提取出特征

F=a_{2d, 1}, a_{2d, 2}, ..., a_{2d, f}

,3D卷积网络从视频中提取出特征

C=a_{3d, 1}, a_{3d, 2}, ..., a_{3d, c}

。这里

a_{2d, t}, a_{3d, t}

在第t帧的视频图像中提取出的特征向量被定义为F_t。传统的处理方法通常会在2D和3D卷积网络的输出中沿着时间轴计算平均值来获得每个视频的一个向量化表示。然而,在这里作者采用了分层短时傅里叶变换T(STFT),并将其应用于整个时间序列数据上以便整合到最终的结果中。具体而言,在开始分析之前对方波的时间序列执行了傅里叶变换,并获得了相应的频谱信息。

siightarrow arsigma_1n athbb{R}^p

_{1}extrm{a}_j^i=n athbb{R}^f,这里的

i

表示第

i

个视频,

j

表示第

j

个神经元,

f

表示总共有

f

个时间点。然后将整个时间段平均分成两段

_{21}a_j^in athbb{R}^h, _{22}a_j^in athbb{R}^{f-h}

,分别做傅里叶变换得到

siightarrow arsigma_{21}, siightarrow arsigma_{22}

。最后将整个时间段分成四段

_{311}a_j^i, _{312}a_j^i, _{321}a_j^i, _{322}a_j^i

,分别做傅里叶变换得到

siightarrow arsigma_{311}, siightarrow arsigma_{312}

siightarrow arsigma_{321}, siightarrow arsigma_{322}

。然后将得到的傅里叶变换结果拼接在一起得到arsigma=。这就是层级短时傅里叶变换

T

。用

T

分别对

F

C

做操作,就可以得到

lpha=T, eta=T

接下来就是对视频的语义和空间变化进行编码。

通过对物体检测模型的输出结果进行编码,我们可以得到

amma

。对视频人工描述语句进行单词切分和聚合,可以得到词典

D

。对物体检测模型的输出物体标签进行聚合可以得到

idetilde{L}

。对两者取交集以方便后续处理

L=idetilde{L}igcap D

。用物体检测模型分别对q帧图像进行检测,可以得到物体

l_i

概率

Pr=ax_zPr_z, zn 1,..,q

,物体出现频率

Fr=rac{ax_z Fr_z}{N}

,物体帧与帧之间的位移v_i^z=, elta_xz=\widetilde{x}{z+1}-idetilde{x}^z, elta_yz=\widetilde{y}{z+1}-idetilde{y}^z。这里

N

表示同一类型的物体在同一图像中出现的最大数量。当存在多个物体时,请关注各物体的位置信息。

idetilde{x}, idetilde{y}

是位置平均值。于是空间变化的特征

amma

定义为amma=, arsigma_i=。这个特征含义十分丰富,包含了物体的出现概率,出现频率和帧与帧之间的位移。

通过对动作分类模型输出概率的编码,我们可以得到

ta

。我们用

idetilde{A}

该模型用于生成的动作分类标签集合被定义为所有可能的动作类别。通过与预定义的动作分类标签字典D进行交集运算,我们能够获得实际应用中使用的具体标签集合。

A=idetilde{A}igcap D

。第四种特征定义如下ta=, , ..., 。这里的

artheta_i

表示第i种动作是否是动作分类模型的预测结果,1表示是,0表示否。

l_i

表示第i种动作的预测概率。

把上面四种特征进行拼接就得到了输入解码器的特征v=

解码器

本文的主要关注点并非集中在解码器上。简而言之所述,作者采用了双层GRU架构作为解码器用于生成视频描述的句子。

实验

作者在Youtube2Text和MSR-VTT两个数据集上进行了系统性实验。该文中所采用的词嵌入模型基于'fasttext'实现。论文中关于模型指标计算的部分存在表述不够清晰的问题。

We used the Microsoft COCO server to compute our results.

实际上,并没有为视频描述指标提供具体的计算方法。MS COCO在GitHub上公开了官方提供的计算代码。

结果比较

首先是在MSVD(Youtube2Text)上的比较

必须指出的是,在本论文作者声称已达到当前最先进水平(state-of-the-art)的情况下(也就是宣称处于世界领先地位),实际上他的成果远逊于当时全球顶尖水平(world-leading)。该论文发表于CVPR 2019会议,在此之前相关研究包括:Efficient Convolutional Network for Online Video Understanding(ECO)、Sibling Convolutional Encoder for Video Captioning(SibNet),以及Multi-Task Video Captioning with Video and Entailment Generation(MTC)。这些研究均表现得优于当前论文。

下面他在MSR-VTT上的结果

总结

本文将采用层级短时傅里叶变换(Hierarchical Short Time Fourier Transform)、基于卷积神经网络(CNN)的图像分类模型以及基于物体检测(Object Detection Model)的方法的结果作为视频表示的基础内容之一,并以此提升解码器输出的视频描述质量。

全部评论 (0)

还没有任何评论哟~