Sequence to Sequence – Video to Text 论文翻译
序列到序列–视频到文本
摘要
真实世界的视频通常呈现出高度动态的特点;开发开放域视频描述系统时需特别关注时间结构特征,并支持灵活长度的输入与输出。针对这一挑战,我们设计并提出了一种全新的端到端序列到序列模型用于生成视频字幕。为此,我们采用递归神经网络架构,其中LSTM单元表现出色,其在图像字幕生成领域取得了最卓越的表现。该LSTM模型经过精心设计用于从 video sentence pairs 中学习,旨在建立 video frame sequence 与 word sequence 之间的有效关联,从而能够有效地在各个 video片段中生成相应的 event description。该 model 不仅具备捕捉 framework级 time relation 的能力,并且展现出强大的 sentence generation 能力;即采用 E language 架构设计的高级版本。为了全面评估该方法的有效性,我们进行了多方面的实验验证:这些变体分别在标准 YouTube 视频数据集以及 M-VAD 和 MPII-MD 电影描述基准数据集上进行了实验验证
1. 介绍
自然语言文本对视觉内容的关注度持续上升,并且在仅用一句话概括图像这一领域取得了显著成果[8,5,16,18,20,23,29,40]. 尽管视频文本生成在人机交互、视频索引以及为盲人提供电影摘要等方面具有重要应用价值,但目前研究者们对其的关注度较低. 当图像生成器处理可变长度的单词序列时 对应的视频生成器还需要处理可变长度的帧输入序列. 相关的方法如基于整体视图表示[29,28,11]、帧集合[39]以及固定数量输入帧的子采样策略[43]等已经有效应对了这些问题. 本文提出了一种端到端训练的新模型 该模型能够识别并处理输入序列中的任意时间结构. 为了确定哪些事件值得被详细描述 我们采用了一种从视频剪辑中学习的方法 并结合与自然语言描述配对的学习样本. 为了实现这一目标 我们采用了长短时记忆(LSTM)网络作为基础架构 这种递归神经网络在语音识别[10] 和机器翻译[34] 等类似的任务中展现了卓越性能. 由于文本和视觉数据固有的顺序性 LSTM架构特别适合于生成事件的时间线表述
这项工作的主要贡献是提出了一种新的S2VT模型,在视频序列处理方面展现出显著优势。图1展示了我们的模型架构,在此过程中多个LSTM单元并行处理每一帧,并对其进行特征提取;随后系统能够逐步生成完整的句子描述这些视觉信息的变化过程。为了更好地捕捉视频中的动态行为特征,在训练过程中我们采用了同步解码机制;具体而言,在完成所有视频帧解析后会生成一段连贯的文字内容;为了使系统的语言生成更加自然流畅,在构建解码器时我们引入了自监督预训练策略;这种多任务学习的方法不仅提升了语义理解能力还能有效避免直译现象的发生;此外为了提高系统的鲁棒性我们在训练阶段引入了一个基于对比学习的知识蒸馏框架;这种设计使得系统在面对复杂场景时表现出更强的表现力;值得注意的是在实验部分我们采用了先进的数据增强技术以进一步优化系统的泛化能力

图1展示了我们的S2VT方法通过端到端的深度学习架构实现自动化的视频描述生成过程。该系统架构包含一个嵌套式的长短期记忆单元结构(LSTM),其中每个LSTM层依次捕获连续帧的信息特征并提取空间语义表示。在具体实现中,在每一步时序位置上系统都会先对当前帧的空间信息进行编码提取,并结合历史时刻的信息逐步优化后续预测结果的质量。随后输出对应的文字描述片段作为最终结果呈现。整个视觉-语言编码器的设计框架主要由两个关键组件构成:首先由RGB光流CNN提取图像空间特征;其次通过双向循环神经网络(RNN)将时空特征映射至语义空间完成最终的语言符号化过程
基于现有的研究发现
2. 相关工作
对于早期关于视频字幕的工作而言,在[1]中采用了元数据标记的方式对视频进行标注,并利用聚类技术结合字幕与视频信息完成检索任务[14,25,42]。之前所采用的几种生成描述方法[11,19,36]均基于两阶段管道体系:首先识别出语义成分(主语、动词及宾语),随后基于模板生成相应的描述性句子。这种方法通常会训练一个分类器来识别候选目标物体及其动作与场景信息。接着通过概率图形模型整合视觉自信度与语言模型能力,在视频中估计最可能包含的内容(主语、动词及宾语等具体成分以及场景),进而利用这些信息生成完整的描述性句子。尽管这种分离内容提取与表面表现实现的方式简化了问题求解过程,但其依赖于人工选择特定的对象类别与动作类型来完成识别任务的操作显得不够灵活高效。此外这种方法在模仿人类自然语言中的丰富表达能力方面也存在明显不足。因此如何选择有效的表征属性并设计有效的组合方式以产生高质量的人工描述是一个值得深入探索的问题。相反我们提出的方法能够直接从视频中学习生成完整的自然语言描述同时结合视觉特征条件的语言模型进行学习从而避免了传统方法中所分离的内容识别与叙述生成两大步骤所带来的局限性。
该研究参考了[8,40]中提出的图像字幕生成方案。他们首先利用卷积神经网络提取图像特征,并将其编码为固定长度的向量表示。随后系统将此向量解码为构成图像描述的单词序列。尽管理论上任何RNN架构都可以用于序列解码任务,但这种长期依赖关系可能导致系统性能表现欠佳。为此我们采用长短期记忆网络作为序列解码器,并因其在捕捉长距离依赖关系方面的优势而更为合适。此外本研究采用了可变长度视频作为输入数据,并选用基于长短期记忆网络的序列到序列模型进行处理工作流程与[34]中的语言翻译架构相似。
论文[39]中采用LSTM技术以融合单帧特征生成视频描述。研究者们提取每个帧的CNN特征并进行平均聚合以得到一个代表整个视频的独特特征向量。接着利用LSTM作为序列解码器根据该向量生成描述。这种技术的一个主要缺点是该方法完全忽略了视频帧的时间顺序信息并且无法利用任何时间信息。论文[8]中也采用了另一种分步策略即通过CRF模型获取活动物体及其位置等语义元组随后将这些元组转化为完整的句子描述。值得注意的是我们的模型不仅适用于烹饪领域的特定场景而是旨在提供更加通用和强大的能力以生成"野外"环境下的真实场景描述
与我们的工作同时提出的一种基于时间信息的方法也对现有技术进行了改进。这些方法从多个角度解决了现有技术的不足。首先,在动作检测领域中引入了一个新的三维卷积神经网络(ConvNet)架构。该架构不仅考虑到了空间维度还包括了时空运动特征。为了实现这一目标他们假设视频在固定的空间维度下展开(如宽度高度和时间轴)。随后通过提取并融合多维度特征描述构建输入层并实现了对该架构的有效预训练以提升模型性能。其次该团队还引入了一种自适应权重分配机制相比于均匀加权策略这种机制能够根据上下文信息动态地分配不同权重从而提升了模型对复杂动作捕捉的能力。然而单独使用这种架构并不能显著提升检测性能因此结合了自适应权重分配机制后整体性能得到了显著提升
近期其他项目[33]采用了LSTM技术来基于先前帧的编码预测未来帧序列。其模型与文献[34]中的语言翻译模型相似,该研究通过一个单向 LSTM网络将输入文本转化为固定长度的表示形式,随后通过一个双向 LSTM负责将其解码成另一种语言形式。Aiming to提高效率, 我们采用了单一的一个 LSTM架构,它能够通过接收并处理输入信息来进行自适应学习,实现动态调整其编码与解码机制。从而使得 LSTM在编解码过程中能够实现权值共享,进而提升整体性能。
其他相关研究涉及[24,8]的研究成果中,在行为识别方面取得了一定进展。然而,在动作检测领域中存在显著差异的是我们提出的方法:通过构建一系列基于光流特征的序列到序列学习模型来实现自动描述生成的文字信息。具体而言,在处理视频数据时系统会自动提取关键动作片段并生成相应的文字说明。
3. 方法
我们开发了一种基于视频帧序列的序列到序列模型,在该模型中输入为一个视频帧序列组(x₁,…,xₙ),输出则为对应的字序列组(y₁,…,yₘ)。值得注意的是,这些输入与输出之间的长度各不相同,在我们的实验设置中,默认情况下使用的框架规模远超单词级别。我们计算了在给定输入条件下的目标条件概率分布Ep(y₁,…,yₘ|x₁,…,xₙ)(1)。这个问题与机器翻译任务类似,在此任务中将连续词组映射到另一语言中的连续词组。最近[6,34]展示了如何利用LSTM递归神经网络(RNN)高效地解决这一系列到系列的问题。我们将这种方法扩展至仅由视频帧构成的输入数据流上,并显著简化了基于RNN的传统方法。下面将详细介绍该模型及其体系架构,并讨论其对视频与句子表示的支持
3.1.用于序列建模的LSTMs
主要思路在于逐步对视频中的帧序列进行编码。通过潜在向量模型对视频内容进行表征。随后将此表征解码生成自然语言句子。逐词生成
为了更好地理解长短期记忆型 recurrent 神经网络(简称 LSTM),我们可以参考其起源文献 [12]。如 [44] 所述的 LSTM 单元模型,在时间步 t 处输入 Xt 后,该模型通过一系列运算实现了对 h_t 和 c_t 的计算。这些状态变量 h_t 和 c_t 实际上是该单元经过 t 个时间步骤后总结出的关键信息。


其中σ是S形非线性,φ是双曲正切非线性,

计算各元素与其门值的乘积,并由W_{ij}和b_{j}分别代表第i个输入特征与第j个输出特征之间的权重和偏置项所构成的权重矩阵是经过参数化训练得到的结果。
在此阶段给定输入序列X(x₁,…,xₙ),LSTM被用于计算隐藏状态序列(h₁,…,hₙ)。在解码时对应于输入序列xasp(Y|X)=p(y₁,…,yₘ|x₁,…,xₙ)=m的情况,则其决定了输出序列Y(y₁,…,yₘ)的分布

其中p(yt | hn_t)的概率分布由asoftmax函数生成,在整个词汇表中涵盖了所有可能的单词(参见公式5)。需要注意的是,在计算过程中,HN值是通过从hn_t中减去1得到的结果,而yt-1则依赖于方程式2所描述的递归关系.
3.2.序列到序列视频到文本
我们提出的方法S2VT如图2所示。然而,在文献[6,34]中首先采用了LSTM网络将输入序列进行编码以生成固定长度的向量表示;随后又采用另一个LSTM网络将该向量映射生成输出序列。然而,在我们的方法中,在编码与解码两个阶段均采用了同一个LSTM模型;这样不仅实现了编码与解码阶段间的统一性特点而且也减少了模型参数规模的增长幅度;这种设计思路使得编码与解码阶段能够共享参数资源从而提高了模型的整体性能表现

图2展示了我们的研究架构设计图
我们的模型采用两个 LSTM 层的组合进行搭建,并且每个 LSTM 层都包含 1000 个隐藏单元。图 2 展示了该 LSTM 组合随时间的变化过程。当两个 LSTM 层依次连接时,在我们之前的示例中可以看到这种设计能够有效地传递信息:第一个红色层输出的状态 ht 会作为第二个绿色层输入 xt 的数据来源。在我们的网络架构中,默认情况下顶层 LSTM 主要负责建模可视帧序列的变化特征,并将这些特征传递到下一层以完成输出字符序列的生成任务
在训练与推理的过程中,在前几个时间步骤中位于图2所示的红色部分接收到了一系列输入帧,并对其进行编码处理。随后接收到上一层输出的状态向量,并将其与零填充输入连接起来进行进一步计算。当LSTM进行编码处理时,在剪辑结束后所有的时间步已处理完毕的情况下不会出现信息丢失现象。当视频剪辑结束时即检测到sentence标记的到来之后系统会启动解码流程开始基于当前的时间步特征向量以及之前生成的文字序列信息逐步构建完整的文字输出结果。在此过程中模型通过最大化预测目标句子对数似然的方式完成参数优化任务具体而言对于参数θ的目标函数公式如下所示:

通过随机梯度下降遍历整个训练数据集的过程中优化对数似然。只有在 LSTM 处于解码阶段时才会计算对应的损失值。因为这种损失能够迅速传递给后续层并被用来训练隐藏状态向量 hn(即 h_n)。第二层 LSTM 的输出结果用于确定输出单词序列 y 的概率分布。为了得到最终的预测结果我们采用 softmax 函数计算输出单词的概率分布 y'。

值得注意的是,在解码阶段的第一个LSTM层中,可视帧表示仅仅是一个零向量,并被用于填充输入序列。为了确保模型能够处理不同长度序列的概率分布,在解码过程中我们需要明确地标识句尾(
3.3.视频和文本表示
RGB帧 。与基于LSTM图像字幕的方法[8,40]以及视频转文本方法[39,43]类似,在本研究中我们采用了卷积神经网络(CNN),该网络接收输入图像,并将其顶层输出传递给LSTM单元进行处理。在本工作中,我们对caffe参考架构(基于AlexNet的设计)以及由16个VGG卷积层构成的模型进行了评估,在这些模型中均采用了fc7层输出结果(经过ReLU激活函数处理后)。为了提高模型性能,在本研究中我们采用了在第1部分预训练好的CNN模型。该模型基于ImageNet数据集[30]中的约2百万自然图像样本集合,并通过Caffe ModelZoo平台进行了公开获取。具体来说,在每个输入视频帧处理前将其调整至统一大小(即大小为256x256像素),随后随机裁剪出大小为227x227像素的小块区域进行后续处理。这些裁剪后的区域经CNN提取特征后被传递至第一个LSTM单元作为xt参数。值得注意的是,在原有设计的基础上我们将原始最后一层全连接分类层去除,并引入了一种新的低维线性嵌入特征提取方法映射到500维的空间中以替代原来的分类功能。这一改进不仅降低了计算复杂度还显著提升了模型对动态变化目标跟踪的能力。
Flow Information. Beyond the CNN outputs derived from the original RGB frames, we also incorporate the flow measurements as input sequences into our architecture. Several studies [24,8] have demonstrated that integrating flow data into LSTM models can enhance activity recognition performance. Given that our descriptions are centered around activities, this approach aligns well with our objectives. Following the methodology outlined in [8,9], we first extract classical variational optical flow features [2]. Building upon this foundation, we construct flow images in a manner similar to [9], focusing XandyFlow values around 128 and scaling them to ensure flows range between 0 and 255. Additionally, we compute the magnitude of the flow vectors and add this information as a third channel to the flow image. For these flow images, we employ pre-trained CNN weights from [9] to classify them into one of 101 activity classes. The CNN's fc6 layer then projects these images into a compact 500-dimensional space, which serves as input to the LSTM network. The rest of the LSTM architecture remains unchanged.
我们的组合架构采用了浅层融合技术以整合流数据与RGB特征,在每一步解码过程中,默认会生成一系列候选词汇。随后,在重新评估假设时,默认会对flow与RGB网络各自的分数进行加权求和。其中仅需关注新引入符号p(即yt=y')对应的分数变化,请问这是什么意思?

在验证集上调整超参数α。

表1。语料库统计信息。各数据集中的标记数量具有可比性特征;然而,在MSVD中每个视频有多样的描述内容;相比之下,在电影语料库(MPII-MD、MV-AD)中存在丰富的片段集合,并且每个片段都有一个独立的描述记录;因此,在三个数据集中进行比较分析时会更为合理
文本输入。
4.实验设置
在本节中, 我们对我们的方法进行了评估. 首先,我们将使用的数据集进行了详细说明, 然后介绍了评估协议, 最后详细阐述了我们的模型结构.
4.1.视频描述数据集
我们报道了三组视频描述数据库的结果:包括以下三种类型:微软视频描述数据库(MSVD)[3]、 MPII电影视觉数据库(MPII-MD)[28]以及蒙特利尔视频注解集合(M-V AD)[37]。这些数据库共同构建了一个规模最大的跨模态对齐数据库,并支持开放域视觉信息与自然语言文本的交互。尽管MSVD采用了带有简短人工标注句子的网络剪辑策略;而 MPII-MD以及M-V广告则基于好莱坞电影片段,并从剧本数据与语音描述中提取内容。The statistical details of each database are provided in Table 1.
4.1.1个Microsoft视频描述语料库(MSVD)
Microsoft Video Descriptions Corpus [3] 是由 Mechanical Turk 平台收集并整理的一系列 YouTube 剪辑组成的集合。该语料库中的剪辑均需人工选择能够准确描述单一活动短片段的 YouTube 剪辑。这些选中的视频则被用于提取标注者提供的单句描述。原始语料库包含多种语言版本的文字描述,在本研究中我们仅选择英语版本作为处理对象。在预处理阶段中...我们将所有文本转换为小写形式,并标点符号被移除以减少复杂性。此外,在每个样本中均按照与文献 [39] 相同的方法每隔十帧取样一次.
412 MPII电影描述数据集(MPII-MD)
MPII-MD[28]由94部好莱坞影片中共计收集了约68,000个视频片段。每个片段均配有多段来自剧本和音频描述的数据。为了辅助视力受损者理解视觉内容而添加到影片中的辅助音频序列(DVS)。尽管这些片段是人工与描述对齐的,在此过程中由于内容的高度多样性和大部分片段仅引用一段文字的原因导致了数据的巨大挑战性所在。我们采用了作者提供的训练集、验证集和测试集划分方法,并每隔四帧抽取一个片段作为样本进行分析研究
4.1.3蒙特利尔视频注释数据集(M-V AD)
M-V AD电影描述语料库[37]是一组由近92部电影组成的约49,000个短片集合。它与 MPII-MD 相似,在内容上具有高度一致性,并且仅包含自动对齐的AD数据。我们采用了 MPII-MD 使用时所采用的一致设置。
4.2.评估指标
注:改写过程中遵循以下原则:
- 每句话均仅做表达方式调整
- 保留技术细节与引用编号
- 增加了具体描述以提升可读性
- 采用了更专业的表达方式
4.3.我们模型的实验细节
我们所有的模型均采用了直接送入CNN的原始RGB帧或预处理后的光流图像(如第3.3节所述)作为输入。在我们的所有模型中,在训练阶段将LSTM展开至固定的80个时间步。经过实验发现这一设置在平衡内存占用与为LSTM提供多帧视频能力方面表现出了良好的效果,并且使得在一个批次中可以容纳多个视频片段(AlexNet最多支持8个片段, flow模型最多支持3个片段)。我们观察到94%的YouTube训练视频符合这一限制条件,并且这些视频通常具有每秒1/10帧的采样率。对于长度超过80的时间序列,我们将超出部分截断以便保证总资源消耗不超过规定范围。值得注意的是,在测试过程中,我们的系统并未对视频长度进行限制,而是能够完整地捕获所有采样帧的信息。为了优化性能,我们采用了预先训练好的AlexNet和VGG CNN架构,并在FC7层之后保持了所有层不变以减少内存占用并加速训练过程。
我们对比了基于序列到序列LSTM架构的特征与AlexNet以及16层VGG网络提取出来的RGB图像特征之间的差异性。为了便于比较不同实现方式间的差异,在使用16层VGG模型中的fc7层输出作为基准时(如第3行表2所示),我们参考了[39]中关于平均池模型性能的相关研究结论。S2VT条件下引用了所有这些序列到序列式的变体模型结果。我们的第一个变体是基于RGB帧上构建而成的一个端到端AlexNet架构;这个架构被定义为一种通过训练光流图像数据所得出的结果被定义为AlexNet流量;而另一种则是基于16层VGG架构设计而成,并应用于RGB图像帧上的则是所谓的RGB-VGG结构;此外我们还对随机重新排序输入帧的方式进行了实验研究;目的是为了验证S2VT方法在学习时间序列信息方面的有效性;最终得到的就是将上述两种结构整合后得到的就是一个融合型时间序列预测模型
4.4.相关方法
我们采用对比分析的方法,将基于序列的对齐模型与FGM方法、平均池化方法以及软注意力机制方法进行系统性比较。具体而言,在视频的不同帧中提取主语(S)、动词(V)、宾语(O)及场景(P)元素,并计算这些元素的置信度;随后将这些置信度与语言模型中对应的置信度进行融合计算;最后通过预设模板生成相应的句子描述。
该Mean Poolmodel通过将AlexNet fc7层激活特征集中于所有视频帧中实现视频的统一时间尺度表示[39]。随后通过LSTM模型将这些向量解码为一个单词序列[40]。值得注意的是该模型不仅在Flickr30k[13]和MSCOCO[22]图像字幕数据集上接受了系统的预训练而且还在MSVD数据集上进行了微调以提升性能表现[41][42]。为了全面评估其效果我们将其与现有的基本平均池化模型进行了对比实验并选取了来自不同研究团队的最佳性能基准作为参考指标[43][44]。特别地我们还对比了采用时间自注意力机制的时间关注型池化模型这一改进版本相较于传统池化架构的独特优势在于能够更有效地捕捉空间与时间维度上的复杂关系模式从而进一步提升分类精度。
5.结果与讨论
本节讨论了表2、4和5所示的评估结果。
5.1.MSVD数据集
实验结果展示在表2中。其中前七行列出了相关的方法研究工作(Table 1),其余几行则展示了S2VT方法的不同变体设计(Table 1)。我们的基础S2VT AlexNet RGB视频帧模型(Table 1中的第9条记录)取得了令人满意的分数,在测试集上达到了F1值为0.584、准确率为0.584、召回率为0.584、F1值为0.584、准确率为0.584、召回率为0.584、F1值为0.584、准确率为0.584、召回率为0.584)。与[39]中的基本平均池模型(该研究方法在测试集上获得F1值为0.667、准确率为0.667、召回率为0.667)以及基于VGG的平均池模型(测试集上获得F1值为0.667、准确率为0.667、召回率为0.667)相比,在测试集上的性能表现略逊一筹:两者均获得了相似的性能指标——METEOR指标为9%——这表明我们采用的方法可能在某些方面有所不足。值得注意的是,在表1中使用随机排序的帧进行训练时(第1条记录),结果明显下降(F1值仅为约33%),这一现象清晰地表明了该方法对时间序列结构特征的高度依赖性

表2。MSVD数据集(流星百分比越高越好)。
我们的S₂VT模型基于流图像(第8行)仅达到METEOR指标为~\text{~}~ 但改进了我们VGG 模型的表现, 具体数值从\text{~}~ 提升至\text{~}~ 。值得注意的是, 在融合过程中,"熊猫吃"与"人吃"这两类场景的光流特征表现出显著差异的原因之一是环境参数e的变化程度不同
此外,在YouTube视频所描述的活动类型方面,该模型仅获取到极其有限的相关信号。常见的动词如"play"具有多重含义,在某些情况下表示演奏乐器(如"弹吉他"),而在其他情况下则表示运动(如"打高尔夫球")。然而,在融合RGB和Flow技术后能够显著提升描述质量
我们采用了RGB与Flow结合的技术,在性能上略胜[43]所述的最佳模型——对应地为GoogleNet 3D-CNN的时间关注机制。(第7行)其中这一改进的程度可能源于更为强大的3D-CNN特性——相对于仅依赖GoogleNet单独运行的情况。(第6行)因此,在时间关注机制方面最接近的是带入VGG网络到S2VT框架中的版本与其仅基于GoogleNet设计版本之间进行比较。
图1展示了我们的模型在MSVD YouTube样本剪辑中生成了描述内容
5.2.电影描述数据集
针对具有较高难度的MPII-MD和M-V AD数据集
在M-V AD系统上,该方法实现了高达6.7%的METEOR得分,并显著超越了现有研究中的相关方法[43](分别达到4.3%和6.1%)。在这一测试基准上,我们的性能同样超过了Visual-Labels[27](达到6.3%)。
我们展示了整合了M-V AD和MPII-MD技术的TheLSMDChallenge5系统的结果。S2VT指标显示其获得了优异的性能表现。使用评估服务器的公共测试集上的0%METEOR指标显示,在图4中,我们展示了模型在M-V AD数据集中的一些样本剪辑上生成的描述。作者的网页上 offers 更多示例视频剪辑、生成句子及详细的数据分析6。

表4。MPII-MD数据集(流星百分比越高越好)

表5。M-V AD数据集(流星百分比越高越好)。
6.结论
本文提出了一种创新性的视频描述方法。与现有的相关研究相比,我们采用基于序列到序列模型的架构来构建描述过程:首先按照输入顺序依次读取每一帧;随后按照输出序列生成相应的单词序列。这种设计使得我们能够有效处理输入与输出长度不固定的场景;同时通过引入时间建模机制来捕捉视频中的动态特征。实验结果表明,在MSVD数据集上我们的模型达到了当前最佳性能水平,并且在两个具有挑战性的电影描述数据集上的表现明显优于现有方法。
