Deep Reinforcement Learning for Unsupervised Video Summarization阅读笔记
Deep Reinforcement Learning for Unsupervised Video Summarization with Diversity-Representativeness Reward论文阅读笔记
论文整体概述
对于视频摘要问题而言,在本文中我们提出了一种无监督的学习方法。作者强调仅依赖监督学习难以充分挖掘深度神经网络在视频摘要中的潜在能力,并指出此前已有研究采用过DPPLSTM网络进行视频摘要分析工作。在此背景下,我们将其视频摘要建模为一个序列决策过程,并提出了一种称为DSN(Dynamic Sequence Network)的新架构。该结构包含编码器和解码器两部分:其中编码器部分采用了卷积神经网络(CNN),用于从各个视频帧中提取特征;而解码器部分采用了双向LSTM架构,并通过动态采样策略来决定各帧的概率分布。为了实现这一目标,在设计中我们还开发了一个端到端强化学习框架,在该框架下综合考虑生成摘要时的多样性和代表性问题,并引入了新颖的奖励函数设计:其中多样性奖励测量所选帧之间的差异性程度;而代表性奖励则基于各帧与最近选定帧之间的距离来进行计算。值得注意的是,在实验过程中我们发现 DSN 模型首次成功将强化学习技术应用于无监督式的视频摘要问题研究中并取得了显著效果
本文主要贡献
①构建了一个完整的端到端DSN框架,在该框架中以强化学习为基础提出了一种无需标签的奖励机制。该机制通过同时兼顾摘要多样性与代表性实现了首次将强化学习技术应用于无监督视频摘要生成。
②通过扩展至结合标签数据的有 supervision 方法框架提升了模型性能。
③针对两个典型的数据集进行了系统性实验分析并验证了我们提出的无 supervision 方法在性能上超越现有有代表性的公开算法。
视频摘要研究现状
①2012年Lee等人在总结视频时确定了重要的对象和人员;
②2014年Gygli等人学习了一个现行回归器来预测视频帧的有趣程度,并选择了趣味性分数最高的帧作为关键帧;
③2015年Gygli等人将视频摘要作为一个子集选择问题和具有多个目标的优化子模块函数;
④2013年Ejaz等人应用注意力建模技术提取视觉显著性的关键帧;
⑤Zhang等人开发了一种非参数方法,将已知视频摘要的结构转移到具有类似主题的新视频中,还利用辅助资源来促进总结过程,如网络视频/图像等;
这些非深度摘要方法大多独立地处理视频帧,从而忽略了固有的顺序模式。此外,非深度总结方法通常不支持端到端的训练,这会在测试时间造成额外的成本。为了解决上述问题,我们通过深度RNN对视频摘要进行建模,以捕获视频帧中的长期依赖关系,并提出了一种基于强化学习的框架来端到端的训练网络。
本文提出的方法
本文将视频摘要视为一个顺序的过程。

强化学习被用来训练深度总结网络(DSN)。DSN响应一个视频V,并采取行动A作为二进制变量序列。其中视频的部分被选中作为摘要S。反馈奖励R(S)基于摘要的质量指标进行评估。
实验以及实验结果
本研究对SumMe方法(Gygli等人(2014))及TVSum系统(Song等人(2015))进行了系统评估。其中SumMe数据集由25个来自不同主题的视频样本构成,在假日与体育等类别下具有显著代表性;每个视频时长从1到6分钟不等,并由15至18名注释者参与生成摘要过程;因此每个视频都获得了多个摘要版本供参考使用。而TVSum系统则包含了来自新闻、纪录片等领域的50个样本;每个视频时长从2到10分钟不等;与前一系统类似,在TVSum中也采用了基于多 annotator 的多级摘要策略;具体而言;每位 annotator 会针对每帧图像给出重要性评分;随后将这些评分转换为基于镜头活动的关键帧摘要形式供后续分析使用。
此外;为了验证本系统的鲁棒性与适用性;我们还引入了两个额外的数据集:OVP1系统包含了来自YouTube(De Avila等人(2011))的39个样本;这些样本主要集中在非卡通领域。
在实验结果方面;

无监督方法对SumMe和TVSum的影响结果

总结
本文开发了一种基于无标签强化学习的方法来解决无监督视频摘要问题。经过全面测试,在两个基准数据集上的实验结果显示,在使用增强学习与我们的无监督奖励函数时表现优异,并且其性能与大多数监督方法相当甚至略胜一筹。
Projects Github地址
https://github.com/KaiyangZhou/pytorch-vsumm-reinforce
注:
第一次写博客,如有不规范或者理解错误的地方欢迎留言~
