[论文笔记]Reinforcement learning helps slam: Learning to build maps

阅读量：

Reinforcement learning helps slam: Learning to build maps

本文采用了强化学习来探测未知环境并生成地图。分别比较了基于不同奖励函数和不同基于RL的路径规划器的表现。

INTRODUCTION

对于未 chart 环境（无现成地图）的研究人员已启动对这些机器人进行自主学习能力建设以实现对未知环境的有效探索而非沿用基于既定路径规划的传统方法从而实现对未知环境的有效探索并逐步构建动态地图随着SLAM技术的应用该方法被称为主动式SLAM（Active SLAM）由Trivun团队于2015年首次提出

到目前为止，主流的主动SLAM方法主要采用基于边界的探索策略(Yamauchi, 1997)。该方法通过评估选定边界（指地图上已知与未知区域之间的区域）是否通向已被占用的空间来生成控制指令。然而该方法存在以下局限：首先无法规划出最优路径（即从一种状态转换到另一种状态所需的最优控制指令序列），其次在选择要探索的边界时往往依赖贪婪标准（例如选择距离目标最近或信息增益最大的边界）。此外还需搭配一个路径规划器以确保在导航至选定的边界时不会发生碰撞。

本文将SLAM系统的控制信号生成过程及其状态转换过程视为转化为一个强化学习（Reinforcement Learning, RL）问题，在此过程中代理系统必须学会最优动作序列（即控制信号的最佳执行路径），以实现对总累积回报最大化的目标进行有效跟踪。

主要任务是在最短时间内覆盖地图的各个区域而不发生碰撞。为了实现最优策略u, 代理感知环境的状态信息并获得相应的奖励反馈r。

该方法能够包含传感器读数、地图信息以及机器人过去采取的动作等；其中包含了所有用于学习最优轨迹的重要信息；尽管自由度较高，在选择合适的状态向量方面存在挑战；然而，在多数情况下，一个足够丰富的状态空间对于提高学习算法的性能至关重要。

RL被应用于解决机器人在未知环境下进行自主导航的问题。通常情况下，在不同环境中进行导航时，并没有构建或使用任何地图。然而，在大多数情况下，这些方法的效率较低，并且需要较长的时间来进行训练。

几种方法融合了RL与SLAM技术以研究未知环境中的导航问题。这些方法依赖地图中记录的知识从而提升了导航性能与效率。

RL已被广泛应用于路径规划领域并取得了显著成果，并已取得较为满意的进展然而在地图构建方面仍需进一步探索如前所述某篇文献中提到RL代理已被训练以利用RGB-D传感器生成三维地图但其初始策略配置仍需依赖专家提供的轨迹数据

SLAM 和 RL 相关理论

SLAM构建地图

构造环境地图使用Rao-Blackwellized particle filter(RBPF)

SLAM的基本原理是通过其测量数据和运动学数据推导出联合后验概率密度函数（用于表示环境中的点以及机器人的运动轨迹）。可以看出这一过程具有挑战性，并且在实际应用中往往难以实现精准估算。为了实现这一目标，在构建环境映图时必须先确定机器人的位置；然而，在完成环境构建的过程中同样依赖于精确的定位技术。

RBPF能够首先估计机器人运动轨迹，并进而利用已知轨迹进行地图构建。从概率密度函数可知，该方法具有可行性。

$x_{1:t}$ 为机器人的轨迹， $z_{1:t}$ 为传感器的数据， $u_{1:t-1}$ 为前t-1 时刻的控制，m为地图。

第一个是使用粒子滤波的姿态估计，第二个是已知姿态的地图估计。

粒子滤波估计

变量 $x_t^{(n)}$ 代表了在时间 $t$ 下真实状态的所有可能值。基于概率里程计运动模型，在前一时间点的状态集合 $X_{t-1}$ 的基础上推导出当前状态集合 $X_t$ 。

再通过概率观测模型，为每个粒子分配权重 $w_t^{(n)}$

最后，在具有较小的重要性权重下未被重新采样的粒子将使滤波器收敛至正确的姿态估计

已知姿态的地图估计

在估计了机器的姿态后，

地图的表达采用栅格地图的形式，并为每个栅格单元分配一个概率值来表示该单元是否被占用以及其不确定性状态。

总的映射的后验可以被计算为每个单元后验的乘积

强化学习

Active-SLAM旨在系统性地探索并详尽地构建环境地图所需之输入序列的最优顺序，并将该过程可被视为一个强化学习问题，在此过程中RL-agent必须通过不断优化累积奖励函数的最大化来完成其目标

R（s）就是奖励函数，奖励函数的最大值对应于地图全部探索，

Deep Q-Network（DQN）

通过神经网络模型来估计状态下的行为及其带来的优劣程度的量化指标——具体表现为：在给定状态下选择某一行为所带来的优劣程度的量化指标。

Deep Recurrent Q-Network（DRQN）

Deep Q-Network (DQN) has been successfully demonstrated across a wide range of applications. However, many applications rely on the Markov assumption, which posits that the future is independent of the past given the current state. That is, the information contained within the current state is sufficient to determine the optimal action. To address this limitation, Double DQN (DRQN) extends the capabilities of DQN by incorporating a recurrent neural network (RNN) into the q-network structure. This modification enables DRQN to handle partially observable environments effectively.

本文的方法

将室内和未知环境的映射描述为一个有限边界（finite horizon ）的问题

重点放在RL的两个关键方面:奖励函数和状态空间。

奖励

比较三种不同的奖励函数、

**Sparse ** 稀疏的

Map-completeness

信息增益

熵理论于1998年被提出，并定义为所有单元c属于地图m时总和的形式。该量度则衡量了该地图所包含的不确定性程度。有效的搜索策略应当通过探索环境来逐步降低其内在的不确定性。

$c_f$ 对应未知和未被占用的单元格， $c_o$ 对应被占用的单元格，

状态和动作空间

状态向量Sₜ在时间t时定义为其相关的系统状态信息集合；其中zₜ代表当前传感器获取的数据；a_{t−1}表示在时间t−1时执行的动作；机器的姿态估计值由\hat{x}_t给出；cₜ表示全局地图构建进度百分比；剩余时长tₜ是指从当前时刻到该episode结束的时间长度

$s_t^e$ 为拓展状态向量，也就是连续时间段的状态序列， w是观察窗口长度，

采用了离散的作用空间来减少状态向量的维度以降低其维数。代理可以在四种可能的动作中做出选择：执行前进动作、后退动作、左转动作以及右转动作。

实验

实验在虚拟仿真场景中进行, 使用ROS middleware和Gazebo simulation server, 采用差速驱动移动机器人Husarion, 采用速度指令控制的方式, 配备激光雷达系统和车轮旋转计数器.

首先比较不同的奖励设置

如

两种不同的方法来处理训练和测试阶段的碰撞。

第一种：当发生碰撞时，episode终止，并且做出 $r_{crashed}$ 惩罚

第二张：只做出 $r_{crashed}$ 惩罚，这种情况下，每个episode 持续相同的时间。

对比DQN和DRQN

主要的区别在于神经网络中使用了记忆来表示状态-动作值函数Q。

以DQN为例，在其架构中包含两个全连接层，每层均拥有512个神经元；此外还有一个完全连接的输出层，并为每个动作分配一个q值。

DRQN主要包含了采用了一个LSTM层、一个由512个神经元构成的全连接层组，并包含一个用于输出q值的全连接层。

实验结果

三种奖励函数

图2a和图2b分别展示了在Env-1环境中墙面触点无复位和复位时地图完整性的训练情况。在这两种情况下,当发生碰撞时,代理都会受到惩罚奖励的影响。当遇到障碍物时,通过不进行重置操作,代理能够更好地探索环境并学会避免碰撞。图2c和2d则显示了在Env-2环境中接受不同奖励函数训练的agent的表现。对于探索未知环境而言,过早停止训练是没有好处的,因为它可能导致代理陷入局部最优状态(例如在一个房间内长时间滞留)。此外,在训练过程中,引入重置操作会产生不期望的更高的地图完整性信号方差。由于环境1相对简单,其主要挑战是如何逃离主房间,因此三者之间的差异并不显著(见图2a)。然而,当环境变得更加复杂后,接受稀疏奖励函数(6)训练的代理将更加注重地图完整性(2c)。此外,接受地图完整性奖励(7)训练主体相比接受信息获取奖励(9)主体具有更快的学习收敛性。

不同的网络

DQN较早地启动了学习过程；因为它需要收集与训练批次大小相当的样本数量（参考表2）。相比之下，则需要等到积累到与窗口大小相当的数量级（参考表2）。在神经网络的实际训练初期 DRQN 的学习曲线更为陡峭；而在训练过程中观察到的地图完整性方差较小。尽管如此两个主体最终收敛于相同的地图完整性水平。

轨迹评估

轨迹信息如图4所示。在训练环境中（见图4a和4b），rl规划者接受了"地图完整性"(7)"与"信息获取"(9)"奖励功能的训练。通过采用比基于前沿算法生成更短路径的方式来完成任务"。“稀疏”奖励函数(6)"则不依赖地图中的任何先验知识，在复杂环境下无法完成任务。在先验不可见的环境中（图4c和4d）"仅能依靠" "地图完整性"(7)"与"信息获取"(9)"来完成任务"。但性能受机器人起始位置的选择与影响。特别是接受过"信息获取"奖励训练的人工智能系统，在集群空间初始化时表现出色；而接受过"地图完整性"奖励训练的人工智能系统则表现出相反的趋势：它们倾向于靠近障碍物而非开放区域。记录路径长度作为评价实验的表现指标，并列出详细数据于表1中

全部评论 (0)

还没有任何评论哟~

[论文笔记]Reinforcement learning helps slam: Learning to build maps

Reinforcementlearninghelpsslam:Learningtobuildmaps 本文使用强化学习来探索未知环境以及重建地图。对比了三种不同的奖励函数，同时对比了三种不同的基于RL...

[论文笔记]Learning To Explore Using Active Neural Slam

LEARNINGTOEXPLOREUSINGACTIVENEURALSLAM Projectwebpage:https://devendrachaplot.github.io/projects/Neu...

Learning to Communicate with Deep Multi-Agent Reinforcement Learning笔记

1\.论文讲了什么/主要贡献是什么文章提出了通过深度学习的方法，对代理间的通信协议进行学习的思想。从而通过代理之间的通信解决多代理强化学习问题。 2\.论文摘要： Weconsidertheprob...

论文笔记：Frozen Language Model Helps ECG Zero-Shot Learning

2023MIDL 1intro 心电图（ECG）被广泛应用于检测各种心脏疾病，包括心律失常、心脏病发作和心力衰竭等近些年深度学习方法在心电图数据分类领域取得了不错的效果。

Learning to Fuse Asymmetric Feature Maps in Siamese Trackers 论文与代码笔记

ACM模块的结构图大致如上图。就是将模板、搜索区域、第一帧的BBOX分成三个分支来进行处理，然后将这三部分相加传入head与SiamBAN结构相同得到分类与回归结果。

【论文阅读】Learning to Paint with Model-based Deep Reinforcement Learning

LearningtoPaintwithModelbasedDeepReinforcementLearning Abstract Introduction Relatedwork PaintingAge...

【论文笔记】NEURAL COMBINATORIAL OPTIMIZATION WITH REINFORCEMENT LEARNING

目录论文一、概论二、模型参数公式网络 Critic网络 actorcritic算法搜索策略三、实验及结果几种不同的实验组合实验结论四、迁移到背包问题定义实验结论论文强化学...

【论文笔记】Neural Architecture Search with Reinforcement Learning

NeuralArchitectureSearchwithReinforcementLearning Background arvix原文神经网络在诸多任务中表现较好，但是设计/调参过程复制。

论文笔记：Offline Reinforcement Learning for Mobile Notifications

一、本文要解决的问题及模型选择逻辑业务问题：timeinsensitivenotificationstodeterminethebestdeliverytimestowardslongtermeng...

【论文阅读】MAPS: Multi-agent Reinforcement Learning-based Portfolio Management System

MAPS:MultiagentReinforcementLearningbasedPortfolioManagementSystem 0背景介绍本文发表在20年的IJCAI上，属于CCFA类，是当年...

是否确定退出登录?

[论文笔记]Reinforcement learning helps slam: Learning to build maps

Reinforcement learning helps slam: Learning to build maps

INTRODUCTION

RELATED WORK

SLAM 和 RL 相关理论

SLAM构建地图

粒子滤波估计

已知姿态的地图估计

强化学习

本文的方法

奖励

状态和动作空间

实验

首先比较不同的奖励设置

对比DQN和DRQN

实验结果

三种奖励函数

不同的网络

轨迹评估

全部评论 (0)

相关文章推荐

[论文笔记]Reinforcement learning helps slam: Learning to build maps

[论文笔记]Learning To Explore Using Active Neural Slam

Learning to Communicate with Deep Multi-Agent Reinforcement Learning笔记

论文笔记：Frozen Language Model Helps ECG Zero-Shot Learning

Learning to Fuse Asymmetric Feature Maps in Siamese Trackers 论文与代码笔记

【论文阅读】Learning to Paint with Model-based Deep Reinforcement Learning

【论文笔记】NEURAL COMBINATORIAL OPTIMIZATION WITH REINFORCEMENT LEARNING

【论文笔记】Neural Architecture Search with Reinforcement Learning

论文笔记：Offline Reinforcement Learning for Mobile Notifications

【论文阅读】MAPS: Multi-agent Reinforcement Learning-based Portfolio Management System