Advertisement

Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation论文翻译

阅读量:

摘要

大型文本到图像扩散模型在生成高质量图像方面展现了卓越的专业能力。然而,在应用这些模型于视频领域时,则面临时间一致性这一关键挑战。本文提出了一种创新的零镜头文本引导视频到视频翻译框架,在此框架中包含两个关键组成部分:基于自适应扩散技术的关键帧翻译模块以及基于时间感知的全帧传播机制。第一部分通过自适应扩散技术与现有图像处理技术相结合的方式进行关键帧生成,并借助分层跨帧约束来加强形状、纹理和色彩的一致性;第二部分则利用时间感知补丁匹配技术和帧混合方法实现关键帧向其他帧的有效传播。该框架以无需额外训练或优化的成本实现了全局风格一致性与局部纹理细节的一致性结合;同时通过集成LoRA参数化和空间引导控制等技术手段进一步提升了框架的表现效果。

介绍

最近的研究者开发出多种文本到图像扩散模型(如DALLE-2 [26], Imagen [30], 和稳定扩散 [28]) ,它们展现出多样化的高质量图像,并由自然语言引导生成。基于这一技术基础,出现了多种图像是以自然语言为指导的编辑方法。这些方法包括基于现有模型的微调优化、定制化对象生成等技术;此外还出现了Image-to-Image Translation功能(如imageto- [20]),以及用于修复损坏图片和精确编辑特定物体的技术(如image restoration [1] 和 object editing [10]) 。这些工具让用户能够轻松利用统一的扩散框架进行创作。随着视频内容在社交网络上的流行媒体平台 ,要求更精简的视频创作工具也随之兴起 。然而,在这一领域仍面临一个关键的技术挑战:直接将现有的文本到图片扩散模型应用于视频会导致严重的视觉闪烁问题 。

除此之外

在视频域图像扩散建模方面取得成功应用是一项具有挑战性的任务。它需要以下三个关键要素:第一部分是时间一致性:即跨框架约束下低级特征的一致性;第二部分是零样本特性:无需训练或微调的要求;第三部分是灵活性:使其能够与现有产品兼容并支持定制生成图像模型的技术发展。正如上文所述,在图2中展示了两个示例。为了充分利用这一优势,在本研究中我们采用了基于模型兼容性的零样本策略,并旨在进一步解决该策略中维护底层关键问题的时间一致性。

为达成这一目标,在本研究中我们提出了一种新的分层结构预训练图像模,并通过跨帧约束生成连贯的视频序列。我们的核心思路在于通过光学流技术建立跨框架约束关系,并利用先前渲染的帧作为低级参考对当前帧进行处理;同时将第一个渲染帧设定为关键锚定点来规范整个渲染流程,从而有效防止偏离初始视觉特征。分层设计则基于在扩散过程中不同阶段实施采样策略;除了全局风格的一致性外,在具体实现中我们还分别针对形状、纹理和颜色特征在早期、中期和后期阶段实施了强制一致性的要求;这种创新方案不仅实现了整体的时间一致性要求,在局部区域也保持了较高的时序协调性。图1详细展示了基于现有图像模型进行视频翻译后所获得的一致性增强效果,并呈现了六种独特风格的表现形式

基于这一见解,在深入分析的基础上

  • 一种创新性的方法实现了文本引导下的视频至视频零样本目标翻译。
  • 该方法能够同时兼顾全局与局部的时间一致性。
  • 无需进行额外训练,并且能够与预训练图像扩散模型无缝对接。
  • 构建分层式的跨框架一致性的约束机制来分别保证形状、纹理以及颜色的时间一致性和稳定性。
  • 通过系统性地将图像扩散模型应用于多维度分析与综合优化过程中的各个阶段。
  • 在生成过程与传播机制上进行优化后发现,在混合扩散架构下采用块级传播策略能够较好地在生成质量与计算效率之间找到平衡点。

全部评论 (0)

还没有任何评论哟~