Advertisement

[论文笔记]Reinforcement learning helps slam: Learning to build maps

阅读量:

Reinforcement learning helps slam: Learning to build maps

本文采用了强化学习来探测未知环境并生成地图。分别比较了基于不同奖励函数和不同基于RL的路径规划器的表现。

INTRODUCTION

对于未 chart 环境(无现成地图)的研究人员已启动对这些机器人进行自主学习能力建设以实现对未知环境的有效探索而非沿用基于既定路径规划的传统方法从而实现对未知环境的有效探索并逐步构建动态地图随着SLAM技术的应用该方法被称为主动式SLAM(Active SLAM)由Trivun团队于2015年首次提出

到目前为止,主流的主动SLAM方法主要采用基于边界的探索策略(Yamauchi, 1997)。该方法通过评估选定边界(指地图上已知与未知区域之间的区域)是否通向已被占用的空间来生成控制指令。然而该方法存在以下局限:首先无法规划出最优路径(即从一种状态转换到另一种状态所需的最优控制指令序列),其次在选择要探索的边界时往往依赖贪婪标准(例如选择距离目标最近或信息增益最大的边界)。此外还需搭配一个路径规划器以确保在导航至选定的边界时不会发生碰撞。

本文将SLAM系统的控制信号生成过程及其状态转换过程视为转化为一个强化学习(Reinforcement Learning, RL)问题,在此过程中代理系统必须学会最优动作序列(即控制信号的最佳执行路径),以实现对总累积回报最大化的目标进行有效跟踪。

主要任务是在最短时间内覆盖地图的各个区域而不发生碰撞。为了实现最优策略u, 代理感知环境的状态信息并获得相应的奖励反馈r。

该方法能够包含传感器读数、地图信息以及机器人过去采取的动作等;其中包含了所有用于学习最优轨迹的重要信息;尽管自由度较高,在选择合适的状态向量方面存在挑战;然而,在多数情况下,一个足够丰富的状态空间对于提高学习算法的性能至关重要。

RL被应用于解决机器人在未知环境下进行自主导航的问题。通常情况下,在不同环境中进行导航时,并没有构建或使用任何地图。然而,在大多数情况下,这些方法的效率较低,并且需要较长的时间来进行训练。

几种方法融合了RL与SLAM技术以研究未知环境中的导航问题。这些方法依赖地图中记录的知识从而提升了导航性能与效率。

RL已被广泛应用于路径规划领域并取得了显著成果,并已取得较为满意的进展然而在地图构建方面仍需进一步探索如前所述某篇文献中提到RL代理已被训练以利用RGB-D传感器生成三维地图但其初始策略配置仍需依赖专家提供的轨迹数据

SLAM 和 RL 相关理论

SLAM构建地图

构造环境地图使用Rao-Blackwellized particle filter(RBPF)

SLAM的基本原理是通过其测量数据和运动学数据推导出联合后验概率密度函数(用于表示环境中的点以及机器人的运动轨迹)。可以看出这一过程具有挑战性,并且在实际应用中往往难以实现精准估算。为了实现这一目标,在构建环境映图时必须先确定机器人的位置;然而,在完成环境构建的过程中同样依赖于精确的定位技术。

请添加图片描述

RBPF能够首先估计机器人运动轨迹,并进而利用已知轨迹进行地图构建。从概率密度函数可知,该方法具有可行性。

x_{1:t} 为机器人的轨迹 ,z_{1:t} 为传感器的数据,u_{1:t-1} 为 前t-1 时刻的控制,m为地图。

第一个是使用粒子滤波的姿态估计,第二个是已知姿态的地图估计。

粒子滤波估计
请添加图片描述

变量x_t^{(n)}代表了在时间t下真实状态的所有可能值。基于概率里程计运动模型,在前一时间点的状态集合X_{t-1}的基础上推导出当前状态集合X_t

请添加图片描述

再通过概率观测模型,为每个粒子分配权重w_t^{(n)}

请添加图片描述

最后,在具有较小的重要性权重下未被重新采样的粒子将使滤波器收敛至正确的姿态估计

已知姿态的地图估计

在估计了机器的姿态后,

地图的表达采用栅格地图的形式,并为每个栅格单元分配一个概率值来表示该单元是否被占用以及其不确定性状态。

请添加图片描述

总的映射的后验可以被计算为每个单元后验的乘积

强化学习

Active-SLAM旨在系统性地探索并详尽地构建环境地图所需之输入序列的最优顺序,并将该过程可被视为一个强化学习问题,在此过程中RL-agent必须通过不断优化累积奖励函数的最大化来完成其目标

请添加图片描述

R(s) 就是奖励函数,奖励函数的最大值对应于地图全部探索,

Deep Q-Network(DQN)

通过神经网络模型来估计状态下的行为及其带来的优劣程度的量化指标——具体表现为:在给定状态下选择某一行为所带来的优劣程度的量化指标。

请添加图片描述
请添加图片描述

Deep Recurrent Q-Network(DRQN)

Deep Q-Network (DQN) has been successfully demonstrated across a wide range of applications. However, many applications rely on the Markov assumption, which posits that the future is independent of the past given the current state. That is, the information contained within the current state is sufficient to determine the optimal action. To address this limitation, Double DQN (DRQN) extends the capabilities of DQN by incorporating a recurrent neural network (RNN) into the q-network structure. This modification enables DRQN to handle partially observable environments effectively.

本文的方法

将室内和未知环境的映射描述为一个有限边界(finite horizon )的问题

重点放在RL的两个关键方面:奖励函数和状态空间。

奖励

比较三种不同的奖励函数、

请添加图片描述

**Sparse ** 稀疏的

请添加图片描述

Map-completeness

请添加图片描述

信息增益

熵理论于1998年被提出,并定义为所有单元c属于地图m时总和的形式。该量度则衡量了该地图所包含的不确定性程度。有效的搜索策略应当通过探索环境来逐步降低其内在的不确定性。

请添加图片描述

c_f 对应未知和未被占用的单元格,c_o 对应被占用的单元格,

请添加图片描述

状态和动作空间

请添加图片描述

状态向量Sₜ在时间t时定义为其相关的系统状态信息集合;其中zₜ代表当前传感器获取的数据;a_{t−1}表示在时间t−1时执行的动作;机器的姿态估计值由\hat{x}_t给出;cₜ表示全局地图构建进度百分比;剩余时长tₜ是指从当前时刻到该episode结束的时间长度

请添加图片描述

s_t^e 为拓展状态向量,也就是连续时间段的状态序列, w是观察窗口长度,

采用了离散的作用空间来减少状态向量的维度以降低其维数。代理可以在四种可能的动作中做出选择:执行前进动作、后退动作、左转动作以及右转动作。

实验

实验在虚拟仿真场景中进行, 使用ROS middleware和Gazebo simulation server, 采用差速驱动移动机器人Husarion, 采用速度指令控制的方式, 配备激光雷达系统和车轮旋转计数器.

首先比较不同的奖励设置

请添加图片描述

两种不同的方法来处理训练和测试阶段的碰撞。

第一种:当发生碰撞时,episode终止,并且做出 r_{crashed} 惩罚

第二张:只做出 r_{crashed} 惩罚 ,这种情况下,每个episode 持续相同的时间。

对比DQN和DRQN

主要的区别在于神经网络中使用了记忆来表示状态-动作值函数Q。

以DQN为例,在其架构中包含两个全连接层,每层均拥有512个神经元;此外还有一个完全连接的输出层,并为每个动作分配一个q值。

DRQN主要包含了采用了一个LSTM层、一个由512个神经元构成的全连接层组,并包含一个用于输出q值的全连接层。

实验结果

三种奖励函数

请添加图片描述

图2a和图2b分别展示了在Env-1环境中墙面触点无复位和复位时地图完整性的训练情况。在这两种情况下,当发生碰撞时,代理都会受到惩罚奖励的影响。当遇到障碍物时,通过不进行重置操作,代理能够更好地探索环境并学会避免碰撞。图2c和2d则显示了在Env-2环境中接受不同奖励函数训练的agent的表现。对于探索未知环境而言,过早停止训练是没有好处的,因为它可能导致代理陷入局部最优状态(例如在一个房间内长时间滞留)。此外,在训练过程中,引入重置操作会产生不期望的更高的地图完整性信号方差。由于环境1相对简单,其主要挑战是如何逃离主房间,因此三者之间的差异并不显著(见图2a)。然而,当环境变得更加复杂后,接受稀疏奖励函数(6)训练的代理将更加注重地图完整性(2c)。此外,接受地图完整性奖励(7)训练主体相比接受信息获取奖励(9)主体具有更快的学习收敛性。

不同的网络

请添加图片描述

DQN较早地启动了学习过程;因为它需要收集与训练批次大小相当的样本数量(参考表2)。相比之下,则需要等到积累到与窗口大小相当的数量级(参考表2)。在神经网络的实际训练初期 DRQN 的学习曲线更为陡峭;而在训练过程中观察到的地图完整性方差较小。尽管如此 两个主体最终收敛于相同的地图完整性水平。

轨迹评估

轨迹信息如图4所示。在训练环境中(见图4a和4b),rl规划者接受了"地图完整性"(7)"与"信息获取"(9)"奖励功能的训练。通过采用比基于前沿算法生成更短路径的方式来完成任务"。“稀疏”奖励函数(6)"则不依赖地图中的任何先验知识,在复杂环境下无法完成任务。在先验不可见的环境中(图4c和4d)"仅能依靠" "地图完整性"(7)"与"信息获取"(9)"来完成任务"。但性能受机器人起始位置的选择与影响。特别是接受过"信息获取"奖励训练的人工智能系统,在集群空间初始化时表现出色;而接受过"地图完整性"奖励训练的人工智能系统则表现出相反的趋势:它们倾向于靠近障碍物而非开放区域。记录路径长度作为评价实验的表现指标,并列出详细数据于表1中

请添加图片描述
请添加图片描述

全部评论 (0)

还没有任何评论哟~