Deep Reinforcement Learning for Unsupervised Video Summarization with Diversity-Representativeness..
Deep Reinforcement Learning for Unsupervised Video Summarization with Diversity-Representativeness Reward
Abstract
视频摘要旨在通过制作短而简洁的摘要来促进大规模浏览视频,这些摘要是多种多样的,并且代表了原始视频。在本文中,我们规定视频摘要作为一个顺序决策过程,并开发一个深度摘要网络(DSN)来总结视频。DSN为每个视频帧预测概率,该概率表示帧被选择的可能性,然后基于概率分布来选择帧,从而形成视频摘要。为了训练我们的DSN,我们提出了一个端到端的,基于强化学习的框架,在这个框架中,我们设计了一个新颖的奖励函数,共同解释生成的摘要的多样性和代表性,并且不依赖标签或用户交互。在训练期间,奖励功能函数评定怎样展示所生成的摘要的多样性和代表性,而DSN通过学习产生更多样化和更具代表性的摘要来努力获得更高的回报。由于标签不是必需的,我们的方法可以完全不受监督。对两个基准数据集进行的大量实验表明,我们的无监督方法不仅胜过了其他最先进的无监督方法,而且与大多数已发布的监督方法相比甚至更胜一筹。
Introduction
在近年来在线视频数量呈指数级增长的推动下,视频摘要研究日益受到关注,因此提出了各种方法来促进大规模视频浏览。(Gygli et al.2014; Gygli, Grabner, and Van Gool 2015; Zhang et al.2016a; Song et al. 2015; Panda and Roy-Chowdhury 2017;Mahasseni, Lam, and Todorovic 2017; Potapov et al. 2014).
最近,循环神经网络(RNN),特别是与长期短期记忆单元(LSTM)(Hochre-iter和Schmidhuber,1997)一起,已经被用来模拟视频帧中的序列模式,并解决端到端的训练问题。Zhang等人(Zhang et al。2016b)提出了一种深层架构,该架构将双向LSTM网络与决策点过程(DPP)模块相结合,增加了摘要的多样性,称为DPP-LSTM。他们使用监督式学习训练DPP-LSTM,同时使用视频级摘要和帧级重要性分数。在测试时间,DPP-LSTM同时预测重要性分数并输出特征向量,它们一起用于构建DPP矩阵。由于DPP建模,DPP-LSTM需要以两阶段的方式进行训练。
虽然DPP-LSTM(Zhang et al。2016b)已经在多个基准测试中显示了最新的表现,但我们认为监督式学习不能充分发掘深度网络对于视频摘要的潜力,因为它不存在单一的基本事实视频摘要。这是基于这样一个事实,即人类对视频的哪些部分应该作为摘要进行选择具有主观意见。因此,依靠较少的标签,设计更加有效的总结方法仍然是需求。
Mahasseni等人 (Mahasseni,Lam和Todorovic 2017)开发了一种对抗性学习框架来训练DPP-LSTM。 在学习过程中,DPP-LSTM选择关键帧并使用判别器网络来判断由关键帧构建的合成视频是否真实,以便强制DPP-LSTM选择更具代表性的帧。虽然他们的框架是无监督的,但对抗性使得训练不稳定,这可能导致模型崩溃。就增加多样性而言,如果没有标签的帮助,DPP LSTM不能最大限度地从DPP模块中获益。由于用于视频重建的DPP-LSTM之后的基于RNN的编码器 - 解码器网络需要预训练,因此其框架需要多个训练阶段,这在实践中效率不高。
在本文中,我们制定视频摘要作为一个顺序决策过程,并开发一个深度摘要网络(DSN)来总结视频。DSN有一个编码器-译码器架构,其中编码器是一个卷积神经网络(CNN),对视频帧执行特征提取,解码器是一个双向的LSTM网络,它根据选择帧的动作来产生概率。为了训练我们的DSN,我们提出了一个端到端、增强的基于学习的框架,它具有多样性—代表性(DR)奖励功能,共同解释了生成的摘要的多样性和代表性,完全不依赖于标签或用户交互。
DR奖励功能由高质量视频概要应具有的一般标准来激发。具体来说,奖励功能包括多样性奖励和代表性奖励。多样性奖励度量了所选帧之间的不同程度,而代表性奖励则计算帧与其最近所选帧之间的距离,这本质上就是k-medoids问题。这两种奖励相辅相成,共同努力,鼓励DSN制作各种具有代表性的摘要。这种学习策略背后的直觉与人们如何总结视频密切相关。据我们所知,本文首次将强化学习应用于无监督视频摘要。DSN的学习目标是使预期回报随时间最大化。使用强化学习(RL)训练DSN的基本原理有两方面。首先,我们将RNN作为模型的一部分,并将重点放在无监督设置上。RNN需要在每个时间步骤中接收监控信号,但是我们的奖励是在整个视频序列中计算的,它们只能在序列完成后才能获得。为了从仅在序列结束时获得的奖励提供监督,RL成为自然选择。其次,我们推测DSN可以从RL中获益更多,因为RL本质上旨在通过迭代地强制代理采取更好和更好的动作来优化代理的动作(帧选择)机制。然而,在正常的监督/无监督设置中没有特别强调优化动作机制。由于培训过程不需要标签,我们的方法可以完全不受监督。 为了适应标签可用的情况,我们进一步将无监督方法扩展到监督版本,方法是添加一个监督目标,直接最大化选择带注释关键帧的对数概率。通过学习标签中编码的高级概念,我们的DSN可以识别全局重要帧并生成与人工注释摘要高度一致的摘要。
我们对SumMe (Gygli et al. 2014)和TVSum (Song et al. 2015)两个数据集进行了大量实验,对我们的方法进行定量和定性评估。定量结果表明,我们的无监督方法不仅优于其他最先进的无监督方法,而且可以与大多数已发表的无监督方法相媲美甚至优于。更令人印象深刻的是,定性结果表明,用我们的无监督学习算法训练的DSN可以识别与人类选择相一致的重要帧。
本文的主要贡献总结如下:
(1)我们开发了一个端到端、强化学习为基础的DSN训练框架,在该框架中我们提出了一个无标签奖励函数,它共同解释了生成摘要的多样性和代表性。据我们所知,我们的工作是第一次将强化学习应用于无监督视频摘要。
(2)我们将我们的非监督方法扩展到监督版本,以利用标签。
(3)我们对两个基准数据集进行了广泛的实验,结果表明我们的无监督方法不仅优于其他最先进的无监督方法,而且可以与大多数已发表的有监督方法相媲美,甚至优于大多数。
Related Work
视频摘要 近年来,视频摘要技术的研究取得了长足的进展,并产生了多种特色的研究方法。Lee等人(Lee, Ghosh,和Grauman 2012)在视频摘要中识别了重要的对象和人。Gygli等人(Gygli et al. 2014)学习了一个线性回归函数来预测视频帧的趣味性程度,并选择了兴趣度最高的关键帧。Gygli等人(Gygli、Grabner和Van Gool 2015)将视频摘要作为一个子集选择问题,并优化了具有多个目标的子模块函数。Ejaz等人(Ejaz、Mehmood和Baik 2013)应用了一种注意力建模技术来提取视觉显著性的关键帧。Zhang等人(Zhang et al. 2016a)开发了一种非参数方法,将已知视频摘要的结构转移到具有相似主题的新视频中。辅助资源也被用来帮助总结过程,例如web图像/视频(Song et al. 2015;科斯拉等2013年;以及类别信息(Potapov et al. 2014)。这些非深度摘要方法大多独立处理视频帧,从而忽略了固有的顺序模式。此外,非深度总结方法通常不支持端到端训练,这导致了测试时的额外成本。为了解决上述问题,我们通过深度RNN对视频摘要进行建模,以捕获视频帧中的长期依赖关系,并提出一种基于强化学习的框架来对网络端到端进行训练。
强化学习(RL) 由于RL在各种任务中的有效性,它已经成为一个越来越受欢迎的研究领域。Mnih et al. (Mnih et al. 2013)成功地用深度CNN逼近了Q函数,并使他们的代理在几款雅达利游戏中击败了一位人类专家。后来,许多研究者将RL算法应用于视觉相关的应用,如图像字幕(Xu etal)。以及人员再识别(Lan et al. 2017)。在视频摘要领域,我们的工作并不是第一个使用RL。在此之前,Song等人(Song et al. 2016)将RL应用于训练一个摘要网络,用于选择类别特定关键帧。他们的学习框架需要键盘标签和培训视频的分类信息。然而,我们的工作与Song等人的工作有很大的不同,在学习过程中完全不需要标签或用户交互,这归功于我们新颖的奖励功能。因此,我们的摘要方法可以完全不受监督,而且更适用于大规模的视频摘要。
Proposed Approach
我们制定视频摘要作为一个顺序的决策过程。特别地,我们开发了一个深度摘要网络(DSN)来预测视频帧的概率,并根据预测的概率分布来决定选择哪个帧。我们提出了一个端到端、基于强化学习的框架来训练我们的DSN,在这里我们设计了一个多样性—代表性奖励函数,它直接评估生成的摘要的多样性和代表性。
图1说明了整个学习过程

图1:采用强化学习进行深度摘要网络(DSN)的训练与优化。具体而言,在输入视频Vi的基础上,系统通过选择一系列二进制变量A来决定行为序列,并在此过程中识别出视频的关键片段作为摘要S。为了量化摘要质量,系统引入了反馈奖励机制R(S),其计算依据是摘要所展现的多样性与代表性两个关键指标。
