Advertisement

【CVPR2024】Scaling Up Video Summarization Pretraining with Large Language Models

阅读量:

研究背景

  1. 本文旨在解决长短视频内容在互联网流量中的突出地位这一问题,并推动自动 video summarization 技术成为一个关键研究方向。
    然而当前现有的 video summarization 数据集规模相对较小限制了现有算法的有效性特别是在处理长尾分布等问题时表现不足。
  2. 在研究该问题时所面临的主要挑战包括:
    由于其内容的多样性与主观性特点,在某种程度上影响了这一任务的高度不确定性。
    此外现有的 video summarization 数据集规模较小导致现有算法容易过度拟合特定领域的案例进而限制泛化能力的发展。
  3. 关于该问题的研究相关工作主要包括:
    早期提出的无监督 video summarization 方法基于机器学习的传统监督式框架以及基于查询驱动的信息检索技术还有专门针对多模态 media 的总结系统。
    目前最先进的算法虽然在某些方面表现优异但仍存在处理长尾分布与序列依赖性的不足之处。

研究方法

该论文阐述了一种采用大型语言模型(LLMs)作为Oracle摘要器的方法来产出大规模视频摘要数据集,并呈现出高度自动化的扩展架构;具体而言,在这一系统下构建了新的视频摘要模型。

数据集构建:在语音转文字系统的基础上完成长视频到文本的转换过程,并将获取到的文字信息输入到LLMs中进行引导性提示处理。在此基础上识别并筛选出视频中最具代表性和信息密度最高的片段,并同时保留原始的文字内容及时间标记。随后建立一种机制将识别出的关键片段与对应的视频部分对应起来,并在此基础上建立基于虚拟真实的真实摘要模型。经过上述步骤后最终构建完成了容量达25万组的配对数据集(命名为LfVS-P)。

该系统开发团队成功构建了一个基于Transformer架构的编码器-解码器模型

长视频编码技术:通过预训练的CLIP模型从长视频中提取特征,并生成各 video frames 的 visual embedding representations.

长文本编码 :基于预训练语言模型对转录后的文本进行编码处理,生成对应的文本表示。

跨模态注意力:通过多头注意力机制识别视频信号与文本序列之间的跨模态关联。

摘要视频解码 :自回归地解码摘要视频的视觉表示,生成视频摘要。

实验设计

数据收集:基于HowTo100M数据集选取时长超过8分钟的长视频样本,并借助Whisper模型完成语音转文字过程。
样本选择:从生成的文字转录中提取各句子的时间范围信息,并与其相对应的视频片段建立对应关系以形成伪地面真值摘要。
参数配置:采用CLIP-ViT-L/14架构实现视觉信息的离散化处理,并基于SRoBERTa-NLI-large模型提取语义级别上的文本嵌入表示。整个网络模块体系包括包含6层深度的视觉编码网络模块、包含3个嵌入维度层次递进的学习模块以及引入了一级多模态注意力机制结构。优化算法采用AdamW搭配余弦学习率衰减策略,并通过批处理技术实现稳定训练过程。其中初始学习率为3e-4,在批量大小为64的情况下进行了总计100个epoch周期训练以达到理想收敛效果。

结果与分析

  1. 与现有方法的比较 :在LfVS-T基准测试中进行评估时发现,在所有关键指标上提出的方案均显著优于现有的最先进方法。具体而言,在F1分数这一关键指标上相比TL:DW?以及A2Summ方案分别提升了2.8%与3.1%。
  2. 跨数据集泛化 :通过开展零样本及微调实验分析,在SumMe与TVSum数据集上的实验结果显示:预训练于伪地面真值摘要摘要模型不仅能在两个数据集上展现出较强的竞争力,在某些领域甚至超越了从头开始进行训练的方案。
  3. 消融实验 :通过系统性的消融实验探究了文本输入、视频编码器、文本编码器以及跨模态注意力机制对于模型性能的影响。研究发现:同时引入文本输入与视频编码器能够带来最为显著的性能提升。

总体结论

该研究开发了一种基于长视频与大语言模型联合应用的自动化生成大规模视频摘要数据集的方法,并创新性地构建了一个自回归式视频摘要模型。此外,本研究还提出了一个名为LfVS-T的新基准数据集集合,在其中整合了1200个长视频样本及其高质量人工标注的摘要内容。通过系统评估发现,在多项基准测试中实现了现有方法难以企及的最高水平表现。

全部评论 (0)

还没有任何评论哟~