Advertisement

论文阅读Data-Driven Maneuver Modeling using Generative Adversarial Networks and Variational Autoencoders

阅读量:

基于数据驱动的方法对动作建模采用生成对抗网络(GANs)与变分自编码器(VAEs),以实现对高度自动化车辆的安全性验证。

  • 摘要

    • 新的改变

    • 相关工作

    • 方法

      • 数据选择和预处理
      • InfoGAN的适应(VAE类似)
    • 实验

    • 重建性能

  • 结论

Highly Automated Vehicles)

摘要

基于场景的验证是一种很有前途的安全验证高度自动化驾驶系统的方法。通过建模相关的驾驶场景,利用模拟和选择深刻的测试用例,减少了测试的工作量。然而,目前的方法并不能在一个场景中自动创建直观的车辆轨迹模型。我们建议使用无监督的机器学习来训练神经网络来解决建模问题。这些模型学习一组直观的参数,而不需要标记数据,并使用它们来生成新的真实轨迹。基于InfoGAN和beta-VAE结构的神经网络从图像域适应到时间序列域。虽然我们的方法普遍适用,但我们的实验主要集中在高速公路上的变道机动上。为了训练网络,我们使用了从高D数据集中提取的5600多个测量的变道轨迹。我们的结果表明,网络学习描述变道机动多达四个直观的参数。此外,该网络还能够将现有的变道轨迹映射到学习到的参数值上,并生成新的、以前从未见过的、真实的轨迹。我们比较了两种架构之间的结构和多项式模型,并显示了各自的优势。

新的改变

本研究开发了一种基于无监督机器学习算法的新方法来建模机动轨迹。神经网络被训练以建模复杂的运动轨迹,并通过分析已记录的数据提取出一组具有意义的参数集合(如图1所示)。调整输入参数的不同取值时,在此框架下可以生成大量符合实际运动模式的新数据样本。同时,在这种架构中还能实现由观测到的数据反推出原始运动参数的过程。因此,在某些特定情况下(如某个关键运动模式),我们可以利用这种方法生成大量相关的测试数据这一特性尤其有价值

图1:我们提出的方法使用来自高值数据集的真实轨迹来训练神经网络,从直观的参数中生成合成轨迹作为输入。同时,神经网络可以执行从给定的轨迹到相应的参数值的逆映射。

图1:我们的方法基于高值数据集的真实轨迹训练了神经网络,并通过提取关键参数生成合成轨迹作为输入。同时该神经网络能够实现给定轨迹到相应参数值之间的逆映射

我们实现并比较了两种方法。第一种方法是基于一种名为InfoGAN [9]的神经网络结构,它是生成对抗网络(GAN)[10]的扩展。GANs是一种最近的无监督生成建模方法,并在机器学习的不同领域实现了最先进的(SOTA)结果。特别是在图像领域,GANs用于图像[11]、[12]或图像处理[13]等任务。第二种方法是基于β-VAE架构[14],[15],它是对原始的变分自动编码器(VAE)[16]的扩展。尽管生成的图像质量较低,但VAEs更容易训练,而且β-VAE已经证明了它能够在图像上创建更直观的表示。我们采用这些网络来处理由x/y坐标组成的车辆轨迹的时间序列数据。为了训练我们的网络,我们需要一个真实的轨迹数据集。在本文中,我们选择了高D数据集[17],这是一个最近从无人机记录中提取的德国高速公路上的车辆轨迹数据集。我们关注的是车道变更策略,因为其中超过5600个已经在高D数据集中被注释。一般来说,基于多项式的模型可以用来很好地近似车道变化,[8],[17]。然而,我们的方法并不局限于变道,但可以用于每一个可能的机动。
主要贡献如下:我们提出了两种神经网络结构,称为轨迹生成对抗网络(TraGAN)和轨迹变分自编码器(TraVAE),它们能够从没有任何标签的记录的车道变化中生成一个解纠缠和有意义的车道变化机动轨迹表示。•我们证明了网络架构确实能够识别现有的,并生成新的现实的机动轨迹变化。
我们比较了这两种架构,并展示了它们各自的(不同的)优势。•我们表明,这些网络可以用于寻找现有训练或验证数据中的空白,并通过生成用于模拟环境的真实轨迹来填补这些空白。

相关工作

HighD数据集介绍这里不作翻译
机动轨迹建模
在本文中,我们重点关注变道机动轨迹,因为这些已经得到了很好的研究。它们通常由(简单的组合)数学形状建模,如圆、窦函数和五次多项式[20]。高D数据集的车道变化由纵向的二次多项式和横向的五度多项式建模,因为在横向[17]中存在更多的动力学。(HighD中的变道轨迹也是可以通过数学公式推导的,因此这里的介绍是为了后面利用数学公式生成的数据与文中所提方法生成的数据进行对比
生成模型
生成式建模描述了构建一个可以生成与给定的训练数据类似的新数据的模型的任务。通常,生成模型允许指定一组参数或统计数据作为输入来控制数据的生成。在下面,我们还将这些参数为潜在参数或潜在变量。为每个潜在参数分配一个具体值会产生一个潜在代码,这是要生成的数据的完整潜在表示。所有可能的潜在码的空间都被称为潜在空间。生成模型的质量可以通过生成的数据样本的质量和潜在参数的直观性和解纠缠性来评估。解纠缠意味着更改单个参数的值只更改生成的样本的特定属性。生成建模领域的SOTA模型是基于神经网络的,并使其网络结构适应于问题领域。在本节中,我们将介绍最常见的体系结构。
1)变分自动编码器:数据生成的一种常用方法是使用变分自动编码器(VAE),它已由Kingma &韦林[16]作为常规自动编码器的扩展而引入。一个编码器网络被训练来编码输入到一个低维表示。为了学习一个有意义的潜在表示,解码器网络必须使用这种表示重建原始输入。通过训练网络以最小化网络输入和输出之间的差异,潜在空间表示必须保留尽可能多的信息。经过训练后,利用解码器网络通过从潜在空间中采样来生成新的数据。与常规的自动编码器相比,VAE(见图4)进一步最小化了潜在空间中的潜在表示所占据的体积。这是通过使用KullbackLeibler(KL)散度来惩罚潜在码的分布,以不同于正态分布来实现的。这避免了潜在空间中的间隙,提高了生成样本的质量。
然而,一个VAE通常不会生成一个直观的和解纠缠的潜在空间表示。因此,改变单个参数的值会同时影响生成的样本的不同属性。这个问题的一个解决方案是β-VAE [14]。这个对标准VAE的扩展引入了一个因子β > 1,这增加了KL发散的重要性。使用β的高值,网络被迫将数据集的信息编码在一个更小的潜在代码子集中,这本质上会导致解纠缠表示。
解纠缠的解释 :将原始的数据,例如图像,映射到一个潜在的高维向量空间,希望空间中的潜编码的维度之间是彼此独立的。当我们从这个潜在向量空间采样出潜编码,并通过decoder得到新的数据时,潜编码的每一维控制所得到的数据的不同内容,且彼此不影响。例如,对于人脸数据,我可能得到的解纠缠表示有10维,第一维控制肤色,第二维控制头发的长度,第三维控制眼睛的大小,如果我调整第一维,保留所有其他维度,就可以生成同一个人脸不同肤色的图像,这就是VAE系解纠缠表示学习的目标。)

在这里插入图片描述

图4:变分自编码器(VAE)由编码器和解码器两部分构成。编码器负责从输入中提取潜在表示信息,并通过解码器将其重构为与输入相似的数据样本。网络的总损失函数是重构误差与KL散度两项指标的综合度量。 生成对抗网络:生成对抗网络(GANs)是一种新兴且广泛应用的无监督神经网络架构,在图像领域构建最优生成模型方面表现卓越。 Gan于2014年[10]首次提出(gan是2014年[10]首次推出)。相较于自动编码器(AE),GANs由两个相互作用的网络组成:生成器与鉴别器(判别器)。其中生成器类似于AE中的解码器部分,并通过潜在空间生成合成数据样本;而鉴别器则负责区分真实数据样本与生成数据样本之间的差异(must distinguish between real and generated data samples)。两组网络交替训练过程持续进行,在此过程中各网络不断优化自身性能直至生成模型能够产出无法被鉴别器识别出真伪的数据样本(until the generator can produce synthetic samples that the discriminator cannot distinguish from real ones)。为了避免生成样本模糊的问题(a typical issue of autoencoder),使用鉴别器辅助训练是一种有效的做法(the use of a discriminator avoids the problem of blurry generated samples, which is a typical issue in autoencoders);然而这种交替训练方式存在不稳定性问题(the unstable nature of this alternating training process)以及对超参数敏感性不足的情况(insensitive to hyperparameter tuning)。为了提高训练稳定性,在后续研究中提出了诸如Wasserstein GAN-GP [21]等改进方法有助于缓解这些问题

在这里插入图片描述

图5展示了InfoGAN架构的主要组成部分。通过生成一个潜在的代码和噪声合成轨迹来构建该架构中的发电机网络。鉴別器網絡則被訓練用於分辨生成的合成軌跡與來源于真實數據的真实軌跡之間的区别。此外,在訓練過程中،分類器網絡與鉴別器網絡共同學習並最終被用来估計某個特定軌跡所包含的潜在代碼

方法

数据选择和预处理

本系统排除了双变道和部分变道的情况。
通过变换轨迹的空间坐标系,使x轴设置为变道起始点,y轴设置在交叉处,并以y=-1/+1表示相邻车道。
最后处理所有向左变道的情况时,在后续处理中仅考虑右向变道的变化。

在这里插入图片描述

InfoGAN的适应(VAE类似)

标准的InfoGAN主要用于图像领域,主要由二维卷积层组成。由于轨迹具有单一的时间维度而不是二维空间维度,因此我们用一维卷积代替所有的二维卷积。与标准的InfoGAN相比,我们只使用连续的潜在参数作为模型的输入。我们使用WGANGP目标[21],而不是标准的GAN目标,因为它会导致更快、更健壮的训练。
如图7所示,我们将真实的轨迹提供给分类器网络,并将潜在码输出与噪声向量相结合。生成器网络从潜在的表示法中重建输入轨迹。输入轨迹和重构轨迹之间的均方误差是衡量网络分类和生成质量的指标。此外,这种损失被用于训练发电机。它有助于创建平滑的轨迹,因为我们已经注意到,鉴别器通常关注于全局轨迹的形状。

在这里插入图片描述

实验

在本研究的实验部分中,我们采用了Adam优化算法[24],并设置了生成器的学习速率为1e-4.鉴定了器与分类器的学习速率分别被设定为5e-4.在所有实验过程中,我们采用了梯度惩罚权重为10的目标函数,该目标函数基于WGAN-GP进行设计.其中,互信息损失项与均方误差损失项各自的权重分别为2与30.此外,TraGAN还通过引入10个噪声参数与8个潜在参数来提升模型性能.尽管潜在参数理论上能够反映轨迹的独特属性,但噪声参数则需要允许较小的偏差范围

在这里插入图片描述
在这里插入图片描述

TraVAE网络架构的具体设计如表4所述。在采用TraVAE进行实验研究的过程中我们采用了学习速率为5×10^-4的Adam优化器这一设置能够有效提升模型性能。通过系统性地考察不同维度潜在表示的表现我们发现潜在空间维度从3维至10维均有相应的实验验证结果表明仅当潜在空间维度不超过3维时可以获得较好的可解释性以及较为显著的解耦效果这一发现对后续模型设计具有重要参考价值。在训练过程中发现选择合适的β值至关重要这一参数的选择直接影响着潜在变量之间的解耦程度如果选择过高的β值可能会导致KL散度项在总损失函数中占据主导地位从而引发所谓的"模态崩溃"现象为了进一步优化实验结果我们在本研究中采用了低于先前文献报道[14]所采用的标准β值具体取值范围设定在[0.0001 0.005]之间这一区间的选择不仅保证了计算效率同时也有效平衡了模型对数据分布的不同拟合能力

在这里插入图片描述

重建效果
表三的数据显示,在横向重建误差方面,两种生成模型的表现均优于多项式模型的结果。由此可知,在轨迹建模过程中所学到的质量水平已达到或超越了专家构建的标准。

在这里插入图片描述

重建性能

我们通过8个潜在噪声参数以及10个噪声参数对我们的TraGAN进行了训练。图8详细分析了对生成轨迹具有最大影响的四个潜在参数。这些变化包括图8a中横向车道变化开始的位置的变化、图8b中的全局横向偏移、图8c中车道变化持续的时间长度以及图8d中横向车道变化结束位置的变化情况。这些分析表明我们的模型已经成功地提取并编码了解纠缠的关键属性。

在这里插入图片描述

相较于我们采用了四个潜在参数用于训练

在这里插入图片描述

TraGAN 性能优越,在重建损失方面表现出色,并且能够有效识别出四个解纠缠以及具有直观特征的参数。
相较于 TraVAE 学习得到的潜在空间较为集中且不够直接。
不过 TraGAN 存在一个主要缺陷:由于第 II-C 节所述问题,在训练过程中相对于变分自动编码器更具挑战性。

结论

本文探讨了基于数据驱动的无监督学习方法来建模复杂的移动轨迹。为了构建精确的有效模型,在本研究中我们对比分析了几种不同的神经网络架构。其中一种称为TraGAN(基于生成对抗网络),另一种称为TraVAE(变分自编码器)。这些模型能够有效地生成逼真的合成变道运动轨迹,并且能够捕捉到复杂的动态特征。通过实验验证表明,在这种情况下网络能够识别并学习直观的属性如横向开始和结束位置等关键参数。值得注意的是 TraGAN 的潜在空间设计更为直观且易于解码。此外 通过实验结果我们发现这些生成模型不仅能够实现复杂的运动模式模拟还能够在潜在空间中提取有效的特征从而为进一步的研究提供有力支持 The future work section will extend these models to handle more complex movement patterns and investigate their applicability in real-world scenarios.

全部评论 (0)

还没有任何评论哟~