【论文阅读】Learning to Paint with Model-based Deep Reinforcement Learning

阅读量：

Learning to Paint with Model-based Deep Reinforcement Learning

摘要
- 引言
- 相关工作
- 画图代理者
  - 概述
    This model aims to achieve the goal of visual interaction.
    基于学习的方法将被用来优化此过程。
  - 学习过程
    这一学习过程包括多个关键步骤。
    基于模型的深度 Deterministic Policy Gradient方法将被采用。
    在这一过程中, 首先需要构建状态空间模型。
    然后通过训练算法来优化策略参数。
    最后评估性能指标以验证效果。
  - 基于模型的DDPG方法
    1. 原始DDPG算法介绍: 此算法通过模仿策略网络来实现动作预测。
      然后结合回溯法改进其收敛性。
      最终实现了稳定的控制效果。
    2. 基于模型的DDPG方法: 此方法不仅考虑环境动态,
      还引入了强化学习机制以提高决策效率。
      其中, 状态转移概率模型被用来预判后续状态变化,
      动作选择策略则基于当前状态与目标状态之间的差异进行优化,
      最终达到了最优路径寻优的目的。
  - Action Bundle
  - WGAN Reward
  - Network Architectures
- Stroked-based Renderer
- - Neural Renderer
  - Stroke Design
Training Process
- Ablation Studies (对比实验的结果)
  - Model-based (基于模型的方法)
  - Model-free (非基于模型的方法)
- Rewards
- Stroke Number and Action Bundle
- Conclusion
- 论文地址

Abstract

通过神经渲染器与深度强化学习（DRL）相结合的方法，在人工智能领域中实现了机器创作艺术的能力。在这种框架下，机器不仅能模仿人类绘画技巧进行创作

Introduction

本文首次提出人工智能绘画的概念，并定义其为基于智能体在画布上按照预设规则依次描绘线条的过程。该过程旨在通过逐步合成的方式模仿特定目标图像的风格和细节特征。

agent绘制纹理丰富的图像存在三个挑战：

首先，为了实现类似人类的绘画能力，一个agent必须具备解析目标图像并将之分解为空间上的可绘制线条的能力，并按照正确顺序在画布上完成绘制过程。为了实现这一目标，在视觉解析阶段必须能够清晰理解目标图像的内容与当前画布状态，并制定出有关未来线条绘制步骤的远见计划。基于此需求，在现有方法中常见的解决方案是采用分步过程中的有监督损失计算方法来解决这一问题。然而这种方法在计算资源上的消耗极为巨大。此外，在生成纹理丰富的图像方面存在显著挑战：相比于涂鸦、素描或字符书写等简单创作形式而言，生成与目标图像高度相似的艺术作品通常需要数百次线条绘制步骤才能完成创作任务。
在艺术创作这一领域中精细的微小细节往往至关重要，在先前的研究工作中曾尝试将这些细节参数设计成离散的形式，并限定每个参数仅有有限的选择范围以供操作者选择应用[1] 。然而这种设计方案在面对复杂纹理丰富的创作场景时就显得力不从心了[2] 。基于此背景分析现有的许多RL算法在处理细粒度参数空间时表现出不足[3] ，特别是在连续动作空间下实现精准控制方面仍面临诸多技术障碍[4] 。值得指出的是深度确定性策略梯度算法（DDPG）正是专为解决这类问题而被设计出来的工具[5] 。本研究正是采用该算法作为基础框架
为了进一步提升agent的表现质量，在高质量渲染器的基础上采用了创新性的模型驱动强化学习方法来进行整合优化[6] 。这种基于模型的方法不仅继承了传统DDPG算法的有效性特征而且显著提升了其性能指标表现水平[7] 。

强化学习（RL）旨在最大化整个绘画过程的累积回报，而不是最小化每一步的监督损失，这使得agent有先见之明计划笔画分解和大规模步骤绘画。此外，本文采取对抗训练策略来训练绘画agent。这种策略成功地用于像素级图像生成任务，也有助于agent绘制。
使用神经网络（NN）来训练端到端渲染器，该渲染器直接将笔画参数映射到笔画。渲染器可以实现各种笔画设计。此外，渲染器是差分，可以与DDPG巧妙地结合作为一种基于模型的DRL算法，这极大地提高了原始DDPG的性能。

总而言之，本文的贡献如下：

本文采用了基于模型框架的DRL算法来解决绘画问题，在此过程中使agent能够依次分解目标图像为数百个笔触，并最终生成与目标图像相似的作品；与此同时，在这一过程中神经渲染器不仅实现了高效的绘画功能，并且支持多种笔划风格；此外，在该研究中神经渲染器作为基础技术支撑了本文提出的方法论框架；

利用笔画进行生成（SBR）是一种自动生成非真实感图像的方法，类似于我们所讨论的任务。大多数基于笔划的渲染算法倾向于优先处理某些部分并依赖于用户的干预或输入。

与本文中的agent相仿的是SPIRAL代理系统，在对抗训练优化下具备生成复杂图像结构的能力；然而其依赖于独特的渲染器和递归神经网络（RNN），这使得其在彩色图像领域缺乏普适性；现有方法难以有效应对这一复杂任务，并且计算需求较高；此外研究者们提出了Doodle-SDQ方案采用深度求索算法（DQN）来模拟人类的艺术创作过程；之前的实验表明，在草图数据集上实现了较好的性能；而Artist Agent则致力于探索利用强化学习技术自动生成单个笔画的方法

这类算法属于无模型类型，在这种情况下, agent只需根据环境中的样本数据来优化预期收益。针对特定任务, agent通过预测行为来更深入地认识环境. 另外一种可行的方式是构建一个生成型神经网络模型. Gu等研究者致力于利用基于模型的方法以加速DQN的学习过程.

Painting Agent

Overview

绘画agent旨在通过描绘分解目标图像来指导绘图过程。随后，在绘图纸上绘制这些笔迹以完成整个作品。为了模仿人类作画的习惯和步骤，“该系统根据当前画面状态和目标图案信息预测下一步骤”。以便使系统能够生成既符合历史绘图痕迹又预见到未来绘图方向的新动作，“精心设计反馈机制”。文章假设每次完整绘图后会给予即时奖励信号，并期望通过连续作图积累最大化的总奖励值。此外，在讨论过程中重点强调了这一方法的独特性以及其潜在的优势所在。最后部分详细展示了相关实验结果及分析。

（a）每个时间点,the policy (亦称agent)都会基于画布和目标图像生成一组笔画参数值。随后,渲染器依据这些参数值在画布上绘制出相应的线条。（b）在训练阶段,the evaluator (即critic)将目标图像与渲染结果进行比对以评估动作质量。在此研究中,我们采用神经网络架构来实现policy,evaluator以及renderer组件。

The Model

State and Transition Function: 状态空间由智能体在可观察环境中所能获取的所有可能信息所构成。我们将状态定义为三个组成部分：画布界面、目标图像以及步骤编号。

转移函数 $s_{t + 1} = trans(st; at)$ 描述了状态间的转换关系，在具体实现时，在当前界面绘制线条以体现转换路径。

Action：可执行的动作集合是agent能够执行的一系列操作。一个动作 $a_{t}$ 是由多个参数组成的集合，在时间步骤 $t$ 中用于控制绘制笔画的具体位置、形状、颜色以及透明度。我们将agent的行为定义为其政策函数Π的作用结果。

agent通过感知当前的状态 $s_{t}$ 并生成下一个笔画参数 $a_{t}$ 。该状态基于转移函数发生演变。

奖励功能旨在衡量policy执行动作的效果；在训练绘画agent的过程中，在准确衡量画布与目标图像之间的差异方面具有重要意义；详细阐述了其具体实现机制。

为确保最终画布与目标图像相似度高, 需要做优化以最大化的上述累积奖励指标, 并以减少损失为目标

Learning

在本节中，将介绍如何使用精心设计的基于模型的DDPG训练agent。

在原始Deep Deterministic Policy Gradient（DDPG）架构中，Critic负责构建隐式的环境模型。而基于模型的DDPG方法则利用神经渲染器实现了对环境的显式构建，在此过程中能够更高效地训练代理策略。

Model-based DDPG

本文首先阐述原始DDPG的方法，并通过引入基于模型的DDPG来有效提升agent的学习效率。根据定义，在绘画任务中，动作空间被定义为连续且具有高维度特征。为了适应部分深度强化学习（DRL）方法（如DQN和Policy Gradient算法），动作空间通常会被离散化处理。然而这一过程导致两个主要问题：一是图像元素细节表示精度降低；二是手动设计高效的参数组合结构变得极为复杂。Deep Policy Gradient（DPG）算法通过采用确定性策略的方式，在面对高维连续动作空间时表现出更强的适应性。通过将深度神经网络与DPG结合形成改进型DDPG算法，在多个控制任务中取得了显著性能提升的效果。

原始的DDPG

在原始DDPG中，有两个网络：the actor $Π(s)$ and critic $Q(s; a)$ 。

我们难以利用原始DDPG来训练一位表现卓越的艺术生成agent（AI），其主要原因是该agent在学习过程中难以有效地构建由真实世界图像组成的复杂环境。由于这一问题的原因是什么？是否与实验结果不佳有关？文章在这部分内容的解释不够清晰。

基于模型的DDPG

本文将其命名为基于模型的方法，并将其定义为能够在环境中逐步访问变化过的动作体。

Critic仍然预测该状态的预期奖励，但不再包括当前动作引起的奖励。

Action Bundle

跳帧作为一种关键的技术参数，在许多强化学习任务中发挥着重要作用。该智能体仅能观测环境状态，并每隔k帧执行一次动作而不是每一帧。借助这一技巧设计的机制能够帮助智能体建立跨越较长时间步的状态与动作之间的关系模型。在此基础上优化设计的方法使得actor网络在每个计算节点输出包含k个像素位置的像素坐标信息。渲染模块能够同时处理并输出这k个像素的位置坐标信息以实现高效的视觉生成过程。实验结果表明，在其他条件不变的情况下适当增加输出像素的数量（如增加到5个）能够获得更好的视觉效果值得注意的是在保持算法稳定性的前提下需要对奖励衰减因子进行调整将其从原来的γ修改为γ^k

WGAN Reward

GAN已被广泛应用于迁移学习领域，在文本建模和图像恢复任务中被用作特定的损失函数。其强大的能力在于能够衡量生成数据与目标数据之间的分布差异，并通过这种方式指导模型优化过程。Wasserstein生成对抗损失函数（WGAN Loss）作为一种新型的损失函数，在某些情况下能够超越欧几里得距离作为一种更为有效的评估指标。研究表明，在某些情况下Wasserstein损失能够超越欧几里得距离作为一种更为有效的评估指标，并能显著提升生成图像的质量

Network Architectures

基于现实世界的图像表现出高度的多样性与复杂性，在本研究中我们采用了与ResNet-18相似的残差模块构建actor与critic的特征提取网络。其中，在actor模块中表现优异的是批处理归一化（BN），然而在critic模块上，并行归一化未能显著提升训练效率。为了克服这一局限性，在本研究中我们引入了权重标准化（WN）以及移位ReLU（TReLU）激活函数以确保 critic 模块能够获得稳定的训练过程。值得注意的是，在 actor 和 critic 网络架构中首次引入坐标卷积（CoordConv）模块作为起始层设计。生成器模块采用了与PatchGAN架构相似的设计方案：即通过复制actor和critic并缓慢更新其参数以实现跟踪学习——在此基础上，在DDPG论文框架下提出了软目标网络策略：即通过复制actor和critic并缓慢更新其参数以实现跟踪学习

Stroked-based Renderer

Neural Renderer

使用神经网络生成笔画有两个优点：

首先, 神经渲染器支持多种笔画生成, 同时相比基于手工设计的笔画模拟器更具优势。
其次, 神经渲染器具有的可微特性使其能够有效地适应原始Deep Deterministic Policy Gradient（DDPG）建模环境, 并显著提升智能体性能。

具体地，在神经渲染器中输入一组笔画参数后生成笔画图像S。通过基于图形处理程序生成多样化的训练样本。该模型经过监督学习能够高效地在GPU上完成复杂运算。从而建立了一个易于区分且高效的实验环境。传统的几何渲染方法无需依赖复杂的神经网络即可实现基本功能。然而通过引入神经网络结构我们可以简化繁琐的数学运算过程。主要包含全连接层与卷积层等组件构建。A Sub-pixel upsampling模块被设计用于提升绘制精度。

Stroke Design

Training

Ablation Studies（对比实验的结果）

在本节中，重点考察组件和技巧（涵盖基于模型的DDPG、Action Bundle以及WGAN奖励）对其性能的影响。为了便于理解本文内容，在实验过程中我们仅限于 CelebA 数据集上的应用。

Model-based vs. Model-free DDPG

本文旨在比较基于模型的DDPG相对于原始DDPG的优势。众所周知，在传统的DDPG中（即原始的DDPG），仅能以隐式的视角建模环境，并具备对环境状态和回报值的感受能力。此外，在高维动作空间下，无模型方法在绘画任务中的应用仍然受到限制。为了深入研究无模型方法的作用机制，在改进原始框架的基础上提出了受PatchGAN启发的新方法。本文首先将输入图像划分为若干小块，并将这些分块信息传递给critic网络中用于特征提取。随后，在每个分块级别上引入奖励信号来优化critic网络参数。为区别原有算法而提出该新框架被称为PatchQ算法（PatchQ）。通过这种方式，在采样效率和整体性能方面均取得了显著提升。

研究者通过图7（a）展示了采用多种训练策略优化智能体性能的研究成果。相对于传统方法而言，在实验结果中发现该方法表现更为突出。相比之下，在对比实验中发现带有多层感知机改进型方法的效果明显不如基线方案。

Rewards

Stroke Number and Action Bundle

绘图过程中的线条数量对最终的画面质量至关重要，在表现纹理丰富的图像时尤为重要。本研究训练生成了包含1 ）描述性文本（此处可能需要调整数字表达方式），损失曲线如图7（c）所示。通过观察发现，默认设置下的模型在复杂场景中表现更为稳定。

Action Bundle涉及绘画效率的提升。此外，我们将深入分析其对agent性能的影响。文中通过图7（b）展示了不同设置下的损失曲线变化情况。通过分析损失曲线的数据表明，在适当的情况下每一步骤增加5个笔画能获得最佳效果。

Conclusion

论文地址

Through the application of model-based deep reinforcement learning techniques, the capability of painting has been successfully integrated into the system.

全部评论 (0)

还没有任何评论哟~

【论文阅读】Learning to Paint with Model-based Deep Reinforcement Learning

LearningtoPaintwithModelbasedDeepReinforcementLearning Abstract Introduction Relatedwork PaintingAge...

[论文阅读] Learning Complex Dexterous Manipulation with Deep Reinforcement Learning and Demonstrations

时间：2018/08/01 会议：Robotics:ScienceandSystemsXIV 摘要&introduce 灵巧的多指手操作由于高维数和大量的潜在接触，有效地控制仍然具有挑战性。

论文阅读之Virtual-to-real Deep Reinforcement Learning

目录论文意义具体思路强化学习算法的选择测试有效性网络架构反馈设计实验结果分析仿真训练实验测试。实验对照虚拟环境测试真实环境测试实验分析实验结论不足之处（个人意见）论文意...

RL论文阅读【四】Deep Reinforcement Learning with Double Q-learning（Double DQN）

1废话今天特地早回来了点，天天一点睡，熬不住啊。把DoubleDQN看完了，收获还是不小的吧，虽然公式早就知道，不过把为什么DQN会高估和怎么解决的思路介绍的比较清楚了。

RL论文阅读【一】Playing Atari with Deep Reinforcement Learning

1废话开始要认真的读论文的，计划每天晚上回宿舍看一半，两天看完一篇，第三天写博客总结，虽然有点慢吧，但是积少成多嘛今天先介绍第一篇，也是深度强化学习的开山之作。

[论文阅读] Learning Agile Soccer Skills for a Bipedal Robot with Deep Reinforcement Learning

googledeepmind 使用DeepRL训练一个具有20个驱动关节的类人机器人来玩简化的一对一（1v1）足球比赛。我们发现，足够高频的控制、有针对性的动力学随机化和模拟训练过程中的扰动相结合，...

Reinforcement Learning with Deep Energy-Based Policies

摘要：我们提出了一种方法，用于学习连续状态和动作的基于能量的表达策略，这在以前的表格域中是可行的。我们将我们的方法应用于学习最大熵策略，从而产生一种称为软Q学习的新算法，该算法通过玻尔兹曼分布表达最优...

Learning to Communicate with Deep Multi-Agent Reinforcement Learning

Abstract Weconsidertheproblemofmultipleagentssensingandactinginenvironmentswiththegoalofmaximisingth...

COMA(一)： Learning to Communicate with Deep Multi-Agent Reinforcement Learning 论文讲解

LearningtoCommunicatewithDeepMultiAgentReinforcementLearning论文讲解论文链接：https://papers.nips.cc/paper/6...

Model-Based Reinforcement Learning

ModelBasedReinforcementLearning Principle WeconsidertheoptimalcontrolproblemofanMDPwithaknownrewardf...

是否确定退出登录?

【论文阅读】Learning to Paint with Model-based Deep Reinforcement Learning

Learning to Paint with Model-based Deep Reinforcement Learning

Abstract

Introduction

Related work

Painting Agent

Overview

The Model

Learning

Model-based DDPG

原始的DDPG

基于模型的DDPG

Action Bundle

WGAN Reward

Network Architectures

Stroked-based Renderer

Neural Renderer

Stroke Design

Training

Ablation Studies（对比实验的结果）

Model-based vs. Model-free DDPG

Rewards

Stroke Number and Action Bundle

Conclusion

论文地址

全部评论 (0)

相关文章推荐

【论文阅读】Learning to Paint with Model-based Deep Reinforcement Learning

[论文阅读] Learning Complex Dexterous Manipulation with Deep Reinforcement Learning and Demonstrations

论文阅读之Virtual-to-real Deep Reinforcement Learning

RL论文阅读【四】Deep Reinforcement Learning with Double Q-learning（Double DQN）

RL论文阅读【一】Playing Atari with Deep Reinforcement Learning

[论文阅读] Learning Agile Soccer Skills for a Bipedal Robot with Deep Reinforcement Learning

Reinforcement Learning with Deep Energy-Based Policies

Learning to Communicate with Deep Multi-Agent Reinforcement Learning

COMA(一)： Learning to Communicate with Deep Multi-Agent Reinforcement Learning 论文讲解

Model-Based Reinforcement Learning