Advertisement

论文阅读笔记:Domain Randomization for Active Pose Estimation

阅读量:

摘要

本文主要介绍了一种基于域随机化技术的姿态估计方法。 通过训练深度神经网络模型,在环境的二维图像中直接推断机器人的姿态。 为此目的,文章提出了主动感知(active perception)方法:移动机器人通过主动感知策略获取更为精确的姿态信息,在仿真实验环境中进行参数优化,并将模型参数映射至实际工作环境中的对应参数以提高姿态估计的准确性。

介绍

本文旨在优化基于域随机化的姿态估计技术以提升其精度。通过对环境实施一系列特定几何变换如移动物体、调整机器人手臂或干扰物以及调节相机视角等手段以增强系统适应性。此外本研究还提出了一种主动的姿态估计方法即通过多角度观察来获取数据从而实现更加准确和可靠的预测结果。

问题准备

考虑一个对象x及其若干参考对象y的几何三维模型。其中O_y代表基于参考点y的空间坐标系,在此坐标系下定义P_x为对象x所具有的6维姿态描述。给定场景I中的图像数据包含对象x与参考点y的信息,研究目标在于通过分析该图像数据来推断出P_x的具体数值或特征。

基于域随机化的姿态估计

该研究团队开发了一种基于域随机化的深度学习方法以解决姿态估计问题(链接为:https://arxiv.org/abs/1703.06907)。文章采用三维渲染软件生成不同姿势的环境图像,并结合随机纹理、照明条件、摄像机设置以及相机参数进行建模。设集合 D=\{I^1,P_x^1,...,I^N,P_x^N\} 表示由渲染图像及其对应的匹配对象姿态组成的数据集(此数据集为已知)。通过监督学习训练深度神经网络以实现从输入图像 I 到目标姿态 P_x 的映射关系。

本文方法

基于域随机化的假设性认为:存在一组从所有训练图像中可提取的关键特征参数集合;这些参数值足以预判图像的标签信息(姿态)。这一假设表明,在训练数据极度随机的情况下神经网络具有足够的表示能力;充分的数据量支持神经网络能够识别所有图像中的共性特征进而实现目标预测任务。相对姿态P_x是物体纯几何特性的量化表征;基于x作为精确建模的基础;从而确保在各种渲染结果和真实图片中都能保持几何属性。

基于几何变换域随机化的主动感知

称作DR-GT(Domain Randomization with Geometric Transformations),该方法研究的是几何变换域中的随机化问题。我们定义一组变换T_1,..., T_k来表示这些变换,并利用元组\{I, T_1(I), ..., T_k(I), P_x, T_1(P_x), ..., T_k(P_x)\}生成训练样本集。训练样本集由这些图像及其对应的姿势组成。当施加于环境中的第i个变换时,使用对应的图像和姿势进行渲染。监督学习将建立一个从输入I, T_1(I), ..., T_k(I),以及所有可能的应用项{T₁,…,Tk}到目标位置Pₓ的映射模型

基于逆变换的域随机化

为了应对DR-GT问题,我们开发了一种基于逆变换的技术方案。我们定义了运算符\mathcal{T}_i^{-1}来表示操作\mathcal{T}_i的逆运算过程,并引入了一个标准域随机化映射函数f: \mathbb{I} \rightarrow \mathbb{P}_x来辅助系统建模过程。

映射

P_{x;i}P_x的估计值,因此P_x为样本均值。

样本均值

文章将其命名为基于逆变换的域随机化(Inverse Transform based Domain Randomization, ITDR)。在环境中利用已知变换时,在数据分布上具有更大的灵活性,并可对同一姿势进行多种预测。这些转换中某些情况更容易满足预测需求,在实际应用中能够显著提升模型精度。

逆变换域随机化

模型架构

为了实现从二维图像中获得精确的姿态估计目标, 本研究采用基于卷积神经网络的架构, 将每个输入图像经过特定处理后输出一个特定姿势. 该实验针对由两自由度平移运动与一自由度旋转运动所组成的三自由度姿态空间进行建模. 该模型架构利用16个连续排列的卷积层接收RGB图像数据, 在每两个连续的卷积层之间配置最大值池化操作并紧跟ReLU激活函数. 卷积操作完成特征提取后, 接着通过三层全连接网络完成最终的人体姿态预测. 其损失函数由两自由度平移L1范数回归损失与方向余弦损失相结合组成.

损失函数

其中x\hat{x}分别代表真实姿态与预测姿态,并以\theta\hat{\theta}分别表示方向参数。关于自由度的概念可参考自由度这一文章内容。对于主动的姿态估计方法而言,在统一网络架构下输入多幅不同视角的图像序列,并在此基础上应用已知的刚性变换模型来计算最优预测结果。

实验部分

使用随机领域划分进行主动感知机制实验

本研究系统地评估了ITDR算法在不同条件下对姿态估计的适应性

  • 主动地在环境中转移参考物
  • 机器人被配置为携带并转移所持对象
  • 机器人配置为转移自身所持相机

移动参考物体

估算支柱形物体x的姿态。在实验中使用一种方法来预测了x相对于绿色圆柱体(green circular object) y 的姿态。在主动感知过程中,在桌子角落设置固定的4组测量点,并将参考物体 y 放置于这些位置之间。采用基于迭代时间驱动响应的ITDR方法来计算所有图像中的姿态参数。表1展示了在移动参考物情况下进行姿态估计时所获得的平均预测误差数据

表1
移动参考物体

通过调整绿色参考物体的位置,从而推算出黑色支柱形物体的姿态。观察到调整后绿色圆柱体的位置,并获取了多幅图片以进一步提高姿态估算的效果。

移动参考物体

移动持有物体的机器人

x是支柱形物体,参考物体y是机器臂

表2

移动由机器人持有的相机

移动相机
表3

结论

实验结果

水平方向和平纵方向上以及相对于物体的方向(θ)处均存在误差分布情况。其中单幅图像实验采用蓝色标记表示数据点位置而多幅图像实验采用黄色标记表示数据点位置即采用ITDR方法计算三幅图像结果并取其平均值作为最终估计结果

基于单幅图像的研究发现由于实验中所选取的对象具有明显的形状不对称性因此当相机与目标物之间的距离增大时预测误差明显增加然而引入多副图像是能够有效改善这一现象从而显著提升目标物定向估计性能

在环境中的已知几何变换条件下能够实现与目标物交互的主动感知策略对于提升姿态估计性能具有重要意义

全部评论 (0)

还没有任何评论哟~