Advertisement

ICCV 2019 | 旷视研究院推出基于深度强化学习的绘画智能体

阅读量:

两年一度的国际计算机视觉大会 ICCV 2019(IEEE International Conference on Computer Vision)定于当地时间10月27日至11月2日在韩国首尔举行。旷视研究院共收到11篇学术论文,涉及通用物体检测及数据集、文字检测与识别、半监督学习、分割算法、视频分析、影像处理、行人/车辆再识别等众多技术方向。在此之前,旷视研究院将每周为大家呈现一篇 ICCV 2019 的最新研究成果,助力计算机视觉领域的技术交流与实践落地。

本文为第四篇,在旷视研究院专注于机器仿生绘画领域的最新研究中介绍了团队的方法。该方法在四个大型数据集上展现出显著性能。通过整合深度强化学习技术与神经网络渲染器并结合智能体的自我探索能力,在生成过程中可逐步习得使用数百个独立决定的笔画构建纹理丰富的自然图像

Rendering Artistic Images with Model-based Deep Reinforcement Learning Frameworks.

论文地址:https://arxiv.org/abs/1903.04411

项目主页:https://github.com/hzwer/ICCV2019-LearningToPaint****

目录

  • 导语

  • 简介

  • 绘图智能体

    • 模型

    • 学习过程

    • 网络架构

  • 笔画渲染器

    • 神经渲染器

    • 笔画设计

  • 实验

  • 结论

导语****

本研究介绍了旷视研究院在机器仿人绘画领域的最新研究成果。研究表明,在生成高质量画面的过程中,“效果极佳”通常指的是视觉上的逼真和生动。“机器通过一系列精确控制的笔触完成这一目标。”具体而言,在生成高质量画面的过程中,“效果极佳”通常指的是视觉上的逼真和生动。“机器通过一系列精确控制的笔触完成这一目标。”借助神经渲染器与基于深度强化学习的模型框架,“智能体能够将图像中的纹理细节分解成独立可操控的笔触,并规划出一条连贯的操作路径。对于每一幅单独绘制的笔触,“智能体可直接指定其落点位置及色彩参数”。应用了数百条独立可调控的线条,在生成画面时展现出丰富的表现力。“值得注意的是,在训练过程中无需使用人类绘画经验或实时追踪记录。”

请查看图1中的绘图过程。左边一栏呈现了目标图像。该智能体绘制图像时首先勾勒轮廓线,随后填充细节纹理

简介

人工智能绘画是指一个智能体通过逐步完成绘画过程,在画布上创作出一幅与目标图像高度相似的作品。然而这一任务目前仍面临诸多挑战

首先,在模仿人类绘画的过程中,智能体需通过视觉解析将目标图像分解为具有空间关系的笔划,并具备按顺序绘制这些笔划的能力。在这一过程中,智能体需通过视觉解析来理解目标图像,并了解画布当前的状态后才可规划后续的绘图步骤。

为了应对这一挑战,在每一步对笔画分解时引入supervisory loss可能会导致较高的计算开销(尤其是针对具有复杂纹理的图像),因为智能体需要推导出数百甚至数千个笔画才能生成目标图像)。针对这一具有长期规划性质的任务来说强化学习确实是一个非常有效的解决方案因为它能够实现整个绘画过程累积获得的整体奖励而不是仅仅在每一步最小化supervisory loss。

第二,在绘画领域中对含有多维度笔触特征的精细笔画参数空间的研究具有重要意义。在以往的研究中通常采用离散化的策略来设定笔触参数,在处理连续场景时往往难以捕捉到细微的变化。DDPG(Deep Deterministic Policy Gradient)算法正是针对这类复杂任务设计的理想工具,在其训练过程中能够展现出卓越的手法掌握能力。旷视研究院在本次研究工作中成功采用了DDPG算法框架。

第三部分中指出一个高效的绘画模拟器对智能体性能具有显著影响。尤其是当智能体需要在画布上绘制成百上千条笔画时。相比之下,在此前多数研究中通过让智能体与模拟的绘画环境进行交互来实现绘画功能的方案既费时又缺乏灵活性。而旷视研究院则采用了一种基于神经网络端到端渲染器的新方法直接将笔画参数映射至笔画图形

绘图智能体

绘图智能体的主要目的是通过以笔划形式分解目标图像,并将其呈现于绘画板上形成作品。为了模仿人类的行为模式,在每个阶段都需要根据当前绘画板的状态以及目标图像的信息推断出下一个应该绘制的线条位置。为了确保这一过程的有效性,“使得所有绘制出来的线条都能够与前后线条自然衔接”,研究者设计了一个巧妙合理的激励机制作为基础保障

本研究中的一位研究员假设,在完成一条笔画之后能够获得该奖励。此外,在所有笔画完成之后的过程中或结果中,智能体致力于最大化地积累奖励。整体架构参见图 2

图 2:整体架构图中可以看到Actor、Critic、Discriminator 和 Renderer 这四个组件均为基于神经网络构建

针对上述研究背景,该研究团队将绘图过程表示为一个系统性的决策制定任务。同时,在建立奖励体系的基础上,采用了模型驱动的强化学习方法来训练智能体。

模型

给定目标图像I和初始为空的画布C₀,智能体旨在找到一个笔画序列(a₀,a₁,…,a_{n−1})。在每一步t中,在Cₜ上进行aₜ的绘制会产生C_{t+1}步的结果。经过按序列渲染后生成最终画面Cₙ。研究人员希望使初始画布C₀尽可能接近目标图像I

基于此, 研究员将其建模为一个马尔可夫决策过程, 该模型的状态空间定义为其所处的状态集合S, 行动空间定义为其可采取的行为集合A, 转换函数定义为其在时间t时从状态s_t采取行动a_t而转移到下一状态的概率分布, 奖励函数则决定了在时间t时从状态s_t采取行动a_t所获得的即时奖励值r(s_t,a_t).

学习过程

DDPG 是一种基于模型的方法。如上所述,在绘画任务中,行为空间被定义为一个高维连续空间。为了应对由高维连续行为空间所带来的挑战,在此背景下提出了 DDPG 方法

基于原始的DDPG框架,在强化学习领域中被广泛研究和应用。该算法系统性地将学习过程分解为两个关键组件:Autor(作者)与 Critic(评论家)。其中Actor组件设计用于从给定的状态中生成相应的动作;而Critic组件则旨在评估每一步动作带来的预期回报。

为了更好地解释这一现象,在讨论原始 DDPG 算法时需要特别指出其局限性:由于智能体自身的原因,在构建基于真实世界图像的复杂环境中表现出较大的难度。因此,在这种情况下旷视研究团队开发了一种神经渲染器以帮助智能体更有效地观察和理解所构建的虚拟环境。

智能体可以通过进行深入探索这个环境,并显著地改进自身策略。融合了从中获得了梯度信息的一种DDPG被定义为基于模型的DDPG。两种模型之间的差异可见于图4(按原文顺序)。

图 4:在传统 DDPG 算法架构中,评论家需通过学习机制对环境进行隐式建模;而在基于模型的 DDPG框架下,则由一个神经渲染器实现对环境的显性构建。值得注意的是,在这种架构下生成的内容通常会比传统方法生成的内容更具一致性与连贯性。此外,在基于模型的方法中引入了一个预训练的条件生成器以辅助内容生成过程

动作束中应用Frame Skip(跳帧)技术是一种高效的设计方案,在强化学习领域得到了广泛应用。当智能体每隔k个连续未更新的帧执行一次状态更新时,在某些情况下可以显著改善其对复杂环境的适应能力。通过这种机制设计,在一定程度上可以提升智能体识别长时间跨度状态间关系的能力

研究员借鉴了Frame Skip的思想,在实验中安排演员一次性给出k个笔画的参数组合,并观察其对智能体绘画效率的影响。该研究员将其创新性方法命名为Action Bundle(动作束),并指出这种方法有助于提高智能体的学习速度与绘画质量。

Wasserstein距离损失。基于生成对抗网络(GAN)在计算生成数据与目标数据之间的分布距离方面表现出的卓越能力,在迁移学习、文本建模以及图像恢复等领域得到了广泛应用,并因而被视为一种独特的损失函数。

基于Wasserstein距离的生成对抗网络(WGAN)是对原始生成对抗网络(GAN)的一种优化版本。它旨在最小化Wasserstein距离,并被称作Earth-Mover距离。这种技术有助于提升生成对抗网络(GAN)训练过程中的稳定性。本文采用了对约束判别器版本进行优化以实现更好的性能表现

网络架构

考虑到真实世界中的图像在多样性和复杂度方面都很丰富或高度发达,则采用类似于 ResNet-18 的残差模块作为演员与评论家的特征提取模块

为了获取坐标信息, 研究人员将其命名为CoordConv(Coordinate Convolution), 并将其作为演员与评论家网络的第一层模块. 在判别器部分, 研究人员采用了类似于PatchGAN的网络架构. 图6中的(a)和(b)展示了演员、评论家以及判别器各自的网络结构图.

图 6:网络架构

借鉴DDPG论文的核心理念, 研究人员采用了柔和的目标网络架构, 并构造了演员与评论家的行为副本, 通过缓慢更新的方法来逼近这些副本以更新参数. 此外, 研究人员将其应用至判别器中, 从而提高了训练过程中的稳定性.

笔画渲染器

神经渲染器

使用神经网络进行笔画生成具有两个显著的优势。首先,在图形表现能力方面,神经渲染器具备高度灵活性,并在性能上超越了传统手工设计的手绘模拟器。其次,在算法优化层面,该架构具有良好的可微性特点,并能够精准建模原始DDPG算法所需环境空间,并以此显著提升智能体在执行任务时的整体性能水平。

神经渲染器由几个全连接层与上采样层共同构成了解码器。Sub-pixel技术用于提升网络中笔画的分辨率,并且该操作不仅具有较快的速度还能有效消除棋盘效应。图 5(c)展示了神经渲染器的网络架构。

笔画设计

笔画能够被设计成各种曲线或几何图形的形式。研究团队开发了一种基于二次贝塞尔曲线的笔触表示法,旨在模仿绘画时的实际触感体验。笔画的具体形状取决于控制点坐标以及曲线宽度参数的选择;同时用户还可以通过调整参数来控制笔画的透明度和颜色效果。

实验

基于本论文提出的方法,在MNIST、SVHN、CelebA以及ImageNet这四个数据集上进行了一系列实验验证。实验结果表明,在绘制真实世界图像方面表现尤为出色。

MNIST and SVHN images are structurally simple and commonly encountered. A researcher developed an intelligent agent capable of drawing MNIST images using only five strokes, as well as another capable of creating SVHN images with forty strokes. Refer to Figure 3(a) and (b) for examples. It is evident that the intelligent agent successfully replicated the target image.

图 3:来自多个数据集的测试结果。从(a)到(d)4 个数据集使用的笔画数量分别为 5、40、200、400

与以往相比,在处理图像时CelebA展现出更为 intricate 的结构和更为丰富的内容。研究者开发了一个能够仅使用200笔划精准复制CelebA图像的人工智能主体(见图3(c))。通过观察这一过程可以看出,复制作品虽未完全忠实于原作,但依然高度相似于目标图像,仅失去了少量细节特征。同样地,SPIRAL 在这一领域也展现出其卓越的表现能力。

为了便于对比分析,旷视研究人员所训练的一个20笔画智能体与SPIRAL进行了对比分析。结果显示于图7(a)、(b)区域后可以看出:本研究的方法优于SPIRAL,并且本研究采用的L2范数显著低于SPIRAL所采用的范数三分之一。

图 7:不同设置下的 CelebA 画作

基于 ImageNet 的图像呈现出高度复杂性和多样性。研究团队开发出了一种具有400笔画能力的智能体(见图 3(d))。通过分析画作的轮廓特征、物体色彩分布以及背景信息的变化情况可以看出,在保留主要视觉元素的情况下该方法仍能有效识别目标图像的本质特征。值得注意的是尽管该模型在细节纹理方面有所缺失但依然展现了重建复杂场景并以简洁笔触复原画面的能力。

此外,图 8 展示了智能体在不同数据集上测试时候的损失曲线。

图 8:智能体在不同数据集上测试时候的损失曲线

结论

在本文中,旷视研究院开发了一个绘画智能体系统,在其平台上将目标图像分解为单个笔画单元,并按照特定的绘图顺序进行绘制。该系统基于深度强化学习框架运作,在此框架下它能够通过逐步生成优化的绘图方案来最大化奖励效果。与基于传统的人工模拟器相比,在生成笔触的过程中该系统展现出更高的效率与便捷性;此外,在深度强化学习算法的研究中该系统也发挥着积极作用:它能够预判并准确描绘出数百条甚至上千条独立的笔画图形,并且在精确度上远超人工创作水平。实验结果表明该模型对不同类型的目标图像均能实现有效的处理;同时在面对拥有丰富纹理特征的真实自然场景图像时也展现出卓越的表现能力

参考文献

Ha and Eck developed a neural model for sketch-based representations, published in an arXiv preprint with the identifier arXiv:1704.03477 in 2017.

Tao Zhou et al. Mastering the art of doodling through deep q-networks and demonstrated strokes.

Ningyuan Zheng, Yifan Jiang, and Dingjiang Huang. 该系统被描述为一种神经式的创作环境。在第20届学习表示技术国际会议上发表。

Yaroslav Ganin及其合著者在《机器学习进展》中提出了基于强化对抗学习合成图像程序的方法

Using deep reinforcement learning to achieve continuous control by Timothy P Lillicrap and colleagues was published as a preprint on the arXiv platform in 2015.

  • Martin Arjovsky, Soumith Chintala, and Léon Bottou. Wasserstein generative adversarial networks. In the proceedings of the 34th International Conference on Machine Learning held in conjunction with the Workshops on Unsupervised Learning and Deep Learning, volume 70 of Proceedings of Machine Learning Research (ICMLP'17), pages 214–223. JMLR.org, 2017.*

往期解读

第十四届中国计算机视觉大会(ICCV 2019) | 旷视研究院发布创新算法MetaPruning:结合先进的元学习技术和自动化机器学习(AutoML)框架实现高效的模型压缩

第十二届国际计算机视觉会议 | 旷视研究院推出创新性新型矫正网络ScRN以提升场景中的文字识别能力

ICCV 2019 | 旷视研究院发布一项创新性的基于互向导的半监督学习算法用于皮肤检测

传送门

欢迎大家关注如下 旷视研究院 官方微信号????

全部评论 (0)

还没有任何评论哟~