Advertisement

Few-shot Video-to-Video Synthesis

阅读量:

Few-shot Video-to-Video Synthesis

每日练习+持续努力

让蒙娜丽莎说话,让大卫雕塑跳舞的快速视频到视频的合成

摘要

  • 视频到视频的合成v旨在把输入的语义视频,例如人体姿态或者是分割掩模的视频转换为输出的具有真实感的视频。尽管当下最好的vid2vid已经取得很大的进展,但是仍然有两个主要的限制性。第一个是,他们缺乏数据,在训练的时候需要大量的目标人物或者是场景的图像。其次,这个学习模型的泛化能力有限。一个姿态到人的vid2vid模型只能合成在训练集中单个人的姿态。他不能泛化到其他不在训练集中的其他人。为了解决这种局限性,我们提出了一种小样本的vid2vid的框架,这种框架学习通过在测试时利用少量的样本图片合成之前没有见过的物体或场景的视频。我们的模型通过利用一个注意力机制的新型网络权值生成模块实现小样本的泛化能力。我们使用几个大规模的视频数据集,包括人类舞蹈视频、说话的人脸和街景视频,与基准比较并进行了大量的实验验证。实验结果验证了该框架在解决现有vid2vid方法的两个局限性方面的有效性。代码可以在我们的网站上找到。

1. Introduction

视频-合成是指通过将输入语义内容转化为具有高度逼真的视觉体验的方式实现视觉内容生成的过程。其应用领域十分广泛,在艺术创作与娱乐产业中占据重要地位。例如,在人体姿态序列[7,12,57,67]的基础上生成人类舞蹈片段,在分段掩模序列[57]的基础上生成驾驶场景片段均属于该技术的应用范畴之一。为了构建这类模型系统的第一步便是收集与目标任务相关的训练数据集。这些数据集既可以包含多角色表演不同动作的表情与姿态的内容片段;也可以基于城市街景摄像头捕捉到的城市行驶场景片段构建而成。随后通过利用这些数据进行训练建立能够将新输入语义内容转化为相应真实感视觉表现形式的专业化模型系统。换句话说我们期望能够开发出一个 vid2vid 模型系统它能够在已有训练数据支持下对未曾见过的动作类型与场景类型产生逼真视觉呈现能力从而拓展其应用场景边界随着深度学习技术尤其是基于生成对抗网络(GAN)框架的发展以及条件限制下的改进型GAN算法(如CGAN)逐步成熟现有的 vid2vid 方法体系展现出广阔的前景

我们主张仅在训练集中包含的人类受试者扩展视频的能力是不够的。我们建议构建一个系统(System),它可以应用于未知领域(Domain),例如生成数据集中未包含的人类受试者的视频(Video)。理想的情况是(Situation),一个 vid2vid 模型应能基于测试时提供的几个样本图像(Image)来合成未知的视频序列(Sequence)。然而(However),如果一个 vid2vid 模型无法泛化到训练集未曾涉及的人或场景风格(Style),那么就必须专门为其每个新主题或场景样式训练一个新的模型(Model)。此外(Moreover),如果一个 vid2vid 模型仅依赖于少量样本图像无法实现这种域泛化能力(Capability),那么就必须为其每个新主题或场景样式收集大量高质量图像数据集(Dataset)。这将导致模型在实际应用中难以扩展和部署(Deploy)。遗憾的是(Regrettably),现有的 vid2vid 方法存在这些局限性(Limitation),因为它们未能有效解决这一泛化问题。

在这里插入图片描述

vid2vid与few-shot vid2vid的对比 图一

现有的 vid2vid 方法 [7, 12, 57] 对不可见域的推广缺乏关注。单一预训练模型仅能生成与训练数据高度相似的视频序列。例如,在现有方法中, vid2vid 模型受限于仅能针对特定人群生成视频。在实际应用中发现,在缺乏新数据的情况下扩展现有模型面临挑战。相比之下,在本研究中提出的方法能够显著提升适应性

为了解决这些问题,我们提出了few-shot vid2vid框架。与传统的vid2vid方法不同的是,在这种新框架下不仅需要传统的基于语义的视频作为第一个输入(如图1所示),此外还需要另一个关键输入——由可从测试阶段获取的目标域样本图像构成的集合。值得注意的是,在现有文献中并未报道过此类的设计[7,12,57,67]。我们的模型利用这些有限数量的示例图像,并采用了一种新颖的方法来动态配置视频合成机制——具体来说,在这一过程中采用了以下两步:首先利用提供的样本图像生成相应的网络权重;接着通过优化学习目标函数以提升整体性能,并且为了实现这一目标而设计了一个系统化的训练流程:最后能够有效配置视频合成模块

我们采用了多个大规模的数据集进行系统性地多轮实验测试,并涵盖了跳舞视频、头像对话视频以及城市场景等不同类型的素材。实验结果显示,在现有的vid2vid框架中该方法能够显著提升生成效果。此外我们发现所构建模型的表现与其训练数据集中的素材多样性以及在推理阶段可访问的有效样本图像数量之间呈现了显著的相关性。当我们在训练阶段让模型面对更多的不同领域时其泛化能力得到了明显增强能够更好地应对未知领域的处理任务(见图7a)。而当我们增加测试阶段提供的样本图像数量时生成出的视频质量也随之得到提升(见图7b)。

GANS:

基于生成对抗网络(GANs)的技术框架下,我们开发了一种适用于视频转视频(vid2vid)的小样本学习方法。其中我们采用了条件生成对抗网络(CGAN)架构作为核心组件。与传统方法不同的是,在视频转视频任务中我们不仅依赖于少量噪声样本进行重建[13,42,32,14,25],而是直接利用用户提供的数据进行生成操作。这种方法的优势在于能够提供更加灵活的重建控制能力。值得注意的是,在实际应用中用户提供的输入数据可以呈现多种形式包括高质量图像特征[22,68,30,41]、分类标签编码[39,35,65,4]、文本描述[43,66,62]以及视频序列特征[7,12,57,67]等多样化表达形式。在此研究中我们特别采用了基于视频序列特征的数据集进行训练和测试。与现有的仅依赖单一视频序列作为输入的传统videoconditional GAN模型不同我们在模型设计中引入了一批测试阶段提供的样本图片这些图片会在运行时被用于动态计算模块实时更新网络权重参数从而实现更为精准和多样化的视频合成效果

Image-to-image synthesis:

  • 图像-图像的合成是将输入图像从一个域转换到另一个域的对应图像[22,50,3,46,68,30,21,69,58,8,41,31,2],这是vid2vid的基本原理。对于视频来说,新的挑战在于生成的帧序列不仅具有真实感,而且在时间上作为一个整体是一致的。最近,人们提出了一种利用自适应实例归一化技术[19]生成不可见域图像的FUNIT[31]。我们的工作与之不同,我们的目标是视频合成和实现泛化到看不见的领域通过网络权值生成方案。我们在实验部分会比较这些技术。

Video generative models

视频生成模型可以分为三个主要的类别,包括:

1). 无条件视频合成模型[54,45,51],将随机噪声样本转换为视频片段

2). 视频预测模型[48、24、11、34、33、63、55、56、10、53、29、27、18、28、16、40],根据观测到的视频帧来生成之后的视频帧。

3). vid2vid模型[57,7,12,67],它将输入的语义视频转换成逼真的视频。

归为一类,在与前作比较中,则致力于构建一个 vid2vid 模型(基于少量测试阶段示例图像),该模型能够生成未知域视频序列。

Adaptive networks

  • 自适应网络是指根据输入数据动态调整部分权值的网络。这类网络与常规网络表现出不同的归纳偏差,并广泛应用于序列建模[15]、图像滤波[23,59,49]、帧插值[38,37]和神经结构搜索[64]等多个领域中。在此基础上,我们将其应用于vid2vid任务。

Human pose transfer synthesizes

通过将不同姿势的人体图像融合生成新的姿势形态。为了保证生成内容的质量与精细度,传统的人体姿态传递技术主要依赖于人体先验信息来完成任务。相比之下,我们采用的方法更具通用性。与传统的视频输入方式不同,在不依赖特定的身体部位建模的前提下(如身体部位建模[1]或基于表面坐标的映射[36]),相同的模型架构可以直接应用于其他 vid2vid 任务中(如街景视频合成),如图5所示。此外,在设计目标上我们重点考虑了动态过程这一特性:我们的模型专为动态视频合成而优化设计(而非静态图像处理),因此在时间一致性方面表现更为突出(如图4所示)。

3. Few-shot Video-to-Video Synthesis

视频-视频合成的目的是旨在训练一个模型以建立输入语义图像序列到目标语义图像序列的映射关系

在这里插入图片描述

转换成

在这里插入图片描述

未完待续!!!!!!!!!!!!!!!!!!

全部评论 (0)

还没有任何评论哟~