Advertisement

Social GAN: Socially Acceptable Trajectories with Generative Adversarial Networks论文阅读

阅读量:

摘要:

为了实现人机共融的智能移动平台(如自动驾驶汽车与社交机器人),在一个以人为中心的环境中导航是一项具有挑战性的问题。这一问题具有挑战性的原因在于人类运动本质上是多模式的:基于对人类运动轨迹的历史分析与未来行为趋势的研究,在这个复杂的社会环境中找到一种既能适应个体又能满足群体需求的有效路径是一个极具难度的任务。为此我们设计了一种创新性的解决方案:整合序列预测与生成对抗网络这两种工具;通过构建一个周期性的序列到序列(sequence-to-sequence)模型来观察历史运动轨迹并预判未来行为;再结合一个基于创新池化机制的新颖聚合系统来整合个体间的信息;运用对抗训练系统来预判可信的行为轨迹;最后采用一种新型多样性损失函数来促进多样的预测结果;通过对多个典型数据集进行实验分析表明:我们的方法在准确度、多样性、安全性和计算复杂度等方面的表现均显著优于现有方案

1.介绍:

准确预判行人运动行为对自动驾驶汽车及社交机器人等自动移动系统至关重要。这些系统将与人类共处同一个生态系统。人类具备高效处理复杂社会互动的能力。为此,一项具体且关键的任务即为:基于观察所得的人行者运动轨迹(如过去3.2秒的位置数据),推演所有潜在的未来运动轨迹(如图1所示)。

基于人类在拥挤场景中运动所具有的内在属性,在预测人类行为方面是一项难度较大的任务

  1. 人际关系的动态过程。
  2. 个体的行为受周围环境及他人的行为影响。
  3. 在人群流动中具备感知和理解他人性质的能力。
  4. 构建模型来描述这种相互依赖关系是一项复杂任务。

2. 社会可接受性方面存在挑战。一些轨迹从物理角度分析是可行的,在实际应用中却因社会规范的限制而无法被广泛采用。行人在遵守社会规范方面存在一定的限制,在公共空间中需要遵循让行权和对个人空间给予尊重等基本原则。将这些行为系统化并非易事。

3. 多元模式。基于历史数据考虑后可知, 未来预测无法准确把握唯一方向, 因此承认多种发展路径的存在是合理且可接受的

轨迹预测领域的开创性研究成功克服了若干挑战。人际关系领域已通过基于手工特征的传统方法实现了全面解决[2,17,41,46]。最近的研究深入分析了基于递归神经网络的数据驱动技术对社会接受度的影响[1,28,12,4]。在固定场景下的路线选择问题上展开研究后发现,在十字路口街道选择行为上有显著差异(例如,在交叉路口会选择走哪条路的具体决策)[28,24]。Robicquet等人的研究表明,在拥挤环境中不同行为模式会导致不同的导航策略。因此预测任务需输出所有可能的结果

尽管现有方法在解决具体挑战方面展现出显著成效, 但它们仍存在两个缺陷

在预测阶段, 当进行预测时, 他们会模拟每个人的局部区域. 由此可知, 在建模所有人在场景中相互作用的过程中缺乏高度的计算效率(computationally efficient fashion).

(2)其次,在传统深度学习框架中,默认的损失函数设计是为了最小化网络输出与真实样本之间的差异性度量,在这种情况下人们自然会偏好选择能够反映这种差异性度量的最佳行为策略。与之相对地,在本研究中我们追求的目标并非局限于单一标准下的最优解构建——我们致力于培养能够适应社会多维度需求的各种优秀行为模式

为了克服现有研究中的局限性,我们建议基于最近生成模型领域的最新进展。生成式对抗网络(GANs)作为一种新兴技术,在难以处理的概率计算与行为推断方面的逼近难度问题上发挥重要作用[14]。尽管它们已被广泛应用于生成逼真的图像[34],但我们提出一种方法:基于可观察的历史状态与鉴别器网络配合使用来生成多个"社会可接受(socially acceptable)"的行为轨迹。具体而言,在我们的框架中使用一个生成器网络来创建候选行为序列,并由另一个鉴别器网络对其进行评估与筛选。通过采用对抗性损失(adversarial loss),我们的预测模型得以超越传统L2损失方法的限制,并能够识别出那些能够欺骗鉴别器的行为模式分布。在这些研究中所关注的行为特征被定义为在拥挤场景中的"社会可接受运动轨迹"( socially acceptable motion trajectories in crowded scenarios)。

我们提出的一种GAN由RNN编码器-解码器生成器与基于RNN的编码器鉴别器(encoder discriminator)组成,并包含两个独特的创新点

为了促进GAN生成网络的多样性和有效性(diversity and effectiveness),我们引入了多样性损失(variety loss)。该生成网络通过使其分布更加广泛,并成功覆盖潜在的空间(potential space),从而与观察到的输入保持一致(being consistent with the observed input)。

我们设计并提出了一种新型池化机制(pooling mechanism),该池化机制学习一个'global'池化向量,并为所有参与场景的人提供精细的编码信息。

基于一组公开的社会真实世界人群数据集进行实验研究,并通过详细的计算效率和预测精度验证了该模型的能力;同时表明该模型不仅能够实现生成各种符合社会规范的运动轨迹,并且具有较高的生成效率

2.相关工作

该领域可被划分为研究人类与空间之间互动以及人类之间互动的方式。其中第一种方法专注于场景特定的行为模式研究[3,9,18,21,24,33,49];而第二种方法则致力于模拟不同场景中人群之间的互动过程(dynamic interactions between groups)。我们主要关注第二种方法:研究人类之间的互动预测问题[5]。针对这一领域的现有研究进行了综述分析,并探讨了基于循环神经网络(RNN)在序列预测和生成模型方面的相关工作

1.人与人的交互(human-human interaction)

从宏观与微观的人群角度研究了人类行为。微观层面的研究中,默认采用建模方法分析了行人行为,并将引力(attractive force)作为主导因素促使人们朝向目标移动;而排斥力(repulsive force)则起到了避免碰撞的作用。近年来,在这一领域内出现了许多创新性方法[5, 6, 25, 26, 30, 31, 36, 46]。其中一些经济领域的研究方法也已被引入到这里[2];例如Treuille等人[42]采用了连续体动力学模型;Wang等人[44]则基于神经网络框架展开研究;Tay等人[41]运用高斯过程进行了深入分析。此外这些函数还被用于考察固定群组的行为特征[35, 47];然而目前所有这类方法均基于相对距离指标并遵循特定规则构建能量势场(hand crafted energy potentials based on relative distances and specific rules)。相比之下,在过去两年中基于RNNs的数据驱动方法已经取得了显著进展

2.用于序列预测的RNNs(RNNs for sequence prediction)

递归神经网络是一种多维度的动态模型,在此基础之上对前馈神经网络进行了拓展应用研究。它不仅用于序列生成任务如语音识别、机器翻译以及图像字幕添加等场景中(参考文献[7-8-15-20-43-45-39]),而且在这些应用中仍存在无法有效捕捉高层次时空关系的问题(参考文献[29])。为此,研究者们曾试图通过构建多个独立模块来模拟复杂的人际互动(参考文献[1-10-40])。本研究证实,在计算效率上采用多层感知机(Multi-Layer Perceptron)结合最大池化(max pooling)的方法表现出了与现有方法相当甚至略优的效果(参考文献[1])。此外,在轨迹预测领域中采用变分自编码器(Variational Autoencoder)的RNN编解码框架也已取得一定成果(参考文献[28]),但目前仍未能完全解决人群密集场景下的社交行为建模问题。

3.生成模型(Generative Modeling)

生成模型如变分自编码器 [23]旨在寻求最大值 training data likelihood lower bound (TLLB) during training. Goodfellow et al. introduced another approach, the generative adversarial network (GANs) [14], where the training process involves a minimax game between the generative model and the discriminative model. This successfully circumvents the computational difficulty of approximating intractable probabilities. In tasks such as super-resolution [27], image-to-image translation [19], and image synthesis [16, 34, 48], generative models have demonstrated impressive outcomes, where each input can yield multiple possible outputs. However, their application in sequence generation tasks, particularly in natural language processing, has been lagging behind due to the fact that sampling from these generated outputs and passing them to a discriminator constitutes a non-differentiable operation.

3.方法

在人群中进行路径规划时,人类会在运动中自然考虑身边人的状态.我们计划自己的路径,同时牢记目标,也会考虑周围人的运动情况,例如他们的移动方向与速度等.然而,在这种情况下,通常会有多个可能的选择.我们的模型不仅能够理解这些复杂的人类交互行为(human interactions),还能够捕捉各种选项(capture the variety of options).目前的方法侧重于预测未来的平均轨迹,因此他们通过最小化到ground truth的 L2 距离来进行建模;而我们希望该模型能预测出多条"良好"的轨迹.为此提出了一种基于编解码架构的生成对抗网络(GAN)模型来解决这些问题.接下来我们介绍了所设计的新池化层结构,这是一种模拟人与人之间交互(human-human interaction)的行为模式;最后我们引入了多类损失(variety loss)这一概念,以使网络在给定观测序列的基础上生成多样化的未来轨迹.

3.1定义问题(problem definition)

我们的主要目标是实现共同推理与全局预测,在同一场次内所有智能体的未来运动轨迹。基于假设,在接收了一个场景中所有人行为数据作为输入数据集后(记作X=X₁,X₂,…,Xₙ),我们将精确地进行长期行为预测(记作Y=Y₁,Y₂,…,Yₙ)。其中,在时间跨度t=1,…, t_obs范围内收集了行人的输入行为数据(记作Xᵢ=(xₜᵢ,yₜᵢ)),而未来的运动趋势则被定义为其对应的行为序列(称为地面真相),即在时间范围t=t_obs+1,…, t_pred内推导出的结果(记作Yᵢ=(xₜᵢ,yₜᵢ))。

3.2 生成对抗网络(generative adversial networks)

由两个相互对立的神经网络进行训练构成[14].其中包含两个对抗型训练模型:一个是捕捉数据分布特性的生成器G(Generator),另一个是基于判别器D(Discriminator)来估计样本是否为真实数据而非生成数据.其中生成器G接受潜在变量z作为输入并输出样本G(z).接收一个样本x并输出数值D(x),该值代表该样本为真实数据的可能性.其训练过程类似于基于两人零和博弈理论构建的一个优化框架

GANs能够通过接收额外输入变量c以指导生成器与判别器的工作,并进而生成G(z,c)与D(x,c)。

3.3 社交意识 GAN(social-aware GAN)

如前所述,在第1节中所述的轨迹预测问题属于多模态范畴。生成模型可与时间序列数据协同作用以模拟潜在的未来轨迹。基于此认识基础之上我们决定构建SGAN架构。该模型由三个主要组件构成包括生成器G池化模块PM以及鉴别器D。其中G架构遵循编码解码框架设计用于连接编码器与解码器之间的隐藏状态信息以提升预测精度。具体而言G将输入Xi映射至预期轨迹Yi而D则通过分析包含Xi及Yi在内的整个序列来判断其真实性并完成分类任务

如图2所示:系统概览

1.生成器

我们首先通过单层MLP对个体的位置进行编码, 用于生成定长向量eti. Importantly, 这些嵌入信息在时间t时刻被指定为编码器LSTM单元的输入端, 其中递归关系式如下所示:
e_{i,t} = \sigma(W_e \cdot h_{i,t} + b_e)
h_{i,t} = \text{LSTM}(e_{i,t}, h_{i,t-1}) + \text{FCN}(s_t, h_{i,t-1})
Notably, 输出将被用于全局位置编码器并将其整合进最终结果计算中.

其中 ϕ 是基于ReLU非线性单元的一个映射关系,在同一个场景中 LSTM 的权重 Wencoder 被所有的人共享,并且 Wee 作为一个嵌入权重存在

基本无法对于每个人使用一个LSTM就无法捕获人与人之间的交互行为。编码器通过每个单元的状态来存储各自的运动轨迹信息。然而,正如Alahi等人所研究 [1]所示,我们需要一个简洁的有效表达,它能够整合来自不同编码器的信息,以便有效地推理社会互动模式。在我们的方法中,我们引入了一个池化模块(PM)来建模人与人之间的互动关系。经过tobs处理后,我们将场景中所有人的隐藏状态集合起来,得到每个人的池化张量(pooled tensor) πi,通常情况下,GANs会利用输入的噪声来生成样本数据集。

我们致力于构建一个与过去相符合的未来情景。这一目标得以实现的方式是通过确定初始隐含状态来设定输出轨迹的条件,并且以下内容将详细说明相关机制。

其中γ(·)代表具有ReLU激活函数的多层感知机(MLP),Wc表示嵌入权重参数。在轨迹预测领域中,在两个关键研究方向上与前人工作存在差异:

之前的研究 [1] 基于隐藏状态来估计二元高斯分布的参数。然而,在非光滑场景下进行反向传播采样时会遇到挑战:这在不可微情况下引入了困难;为此我们直接估计坐标位置(x^it, y^it)以规避这一问题。

(2)在社会背景中通常会将LSTM细胞[参见文献1、第28页]视为输入的一部分;相反,在本研究中我们仅将一次池化上下文(pooled context)提供给解码器使用的输入信息。这种设计不仅赋予了解码器在特定时间点做出选择的能力,并且相比现有的S-LSTM方法[参见文献1]其运算速度提升了约16倍(见表2)。

在如上所述初始化解码器状态后,我们可以得到如下预测:

其中φ(·)由一个基于Wed作为嵌入权重、包含ReLU激活函数的嵌入函数组成。LSTM的权重参数由Wdecoder参数化表示;而γ则由一个MLP模型来实现。

2.鉴別器。鉴別器僅包含一個編碼器結構體現其功能。具體而言,該結構將Treal = [Xi, Yi]或Tfake = [Xi, Yi]作為輸入並通過MLP計算出對其validity的概率分數值,從而完成判斷過程。在理想狀態下,該鉴別器將能夠學習到微妙的社会互動規則並有效地区分不符合社会 accepted criteria的行为模式

3. Loss. Besides the adversarial loss, we also incorporate an L2 loss in the predicted trajectory, which evaluates the discrepancy between the generated samples and the ground truth.

3.4. 池化模块

为了实现跨人之间的协同推理,在LSTM网络中实现信息共享是一个必要的前提条件。然而该方法需应对以下几个关键问题:

在一个场景中可能存在大量的人,我们的目标是实现一种简洁的表达方式,以便将所有人的相关信息进行整合

个体间分散的互动并非仅限于局部信息所能涵盖的现象。尽管如此,在某些情况下本地信息仍然无法充分反映整体情况。远处行人的移动可能导致相互干扰的可能性不容忽视。由此可见,在设计网络系统时必须能够全面捕捉整体状态的变化趋势

图3 为了对比不同池化机制的效果, 我们在图中标注了红点, 并将它们分别用于当前模型的池化机制(用红色虚线箭头表示)以及传统的社交池化方法(social-pooling, 用红色虚线方框标注)。我们的方法通过分析红点与其他所有节点之间的相对位置关系, 并结合各自的隐藏状态进行处理, 最终得到红点的聚合向量 P1. 相比之下, 在传统的社交池只考虑网格内的人, 并且不能模拟所有人之间的交互

社交池化方案[1]通过网格结构的设计有效地解决了第一个问题。然而这一人工构造的方法运行效率较低且缺乏对全局语境的有效捕捉能力。研究表明在处理点集合时采用一种学习对称函数的方法能够满足上述需求(如图2所示)。具体而言多层感知机MLP与对称函数结合可实现输入坐标的传递过程其中我们采用了Max-Pooling作为对称函数以增强模型在各维度上的鲁棒性。每个池化向量pi必须整合所有参与决策的相关信息以确保决策过程的信息完整性

3.5. 鼓励产生多样性样本

轨迹预测存在显著难度,在仅凭有限的历史数据进行建模时模型必须推断出所有可能的结果

我们提出了一种多样性损失函数 ,以促进网络生成多样化的样本。在每一个场景中,我们通过从服从标准正态分布N(0,1)的变量z中随机抽取,并寻找在L2范数意义下的最优解来确定我们的预测结果,在此过程中生成k个潜在的输出结果。

其中 k是超参数

基于仅关注最佳轨迹这一策略下,“减少两方面的预测误差并涵盖与历史轨迹一致的结果范围”的损失迫使网络执行‘减少两方面的预测误差并涵盖与历史轨迹一致的结果范围’。”其结构与“最小化N(MoN)损失[11]”相似;然而,在实践中未被采用以促进生成样本多样性。

表1展示了各方法在跨数据集上的定量评估结果。我们通过计算ADE(平均位移误差)与FDE(最终位移误差)对两个关键性能指标进行了评估,在tpred=8及tpred=12(即8/12)的情况下得到了相应的数值结果。经过多次实验对比分析,在多个基准测试中进行比较发现我们的模型表现最佳,并且在长时预测任务上具有显著优势

3.6 实验细节

在我们所构建的模型中

4.实验

在本节中,在两个公开可用的数据集上评估我们的方法: ETH[36]和UCY[25]。这些数据集基于真实世界的行人运动数据,并包含多样化的交互场景。我们对所有采集的数据进行了坐标系的标准化处理,并采用每隔0.4秒的时间间隔对观测结果进行插值计算以获得平滑过渡后的运动参数值。具体而言,在实验过程中我们总共获得了五组测试样本(其中ETH系列包含两组、UCY系列包含三组),涵盖了四个主要应用场景:其中包括1536名行人在拥挤的环境中呈现出各种复杂的行为模式;同时也在相对简单的情形下包含了数百人参与的不同情景研究

评价指标: 与之前的工作[1,28]类似,我们使用两个误差度量:

ADE定义为衡量在所有时间步长上的预测结果与实际位置之间平均平方误差的指标。

FDE: 在经过一系列计算后确定下来的预测目标点与实际到达的目标点之间的距离指标。

基线: 我们与以下基线进行比较:

1. 线性:通过最小化最小二乘误差来估计线性参数的线性回归器。

2. LSTM:没有池化机制的简单LSTM。

3. 该S-LSTM方法由Alahi等人[1]提出。每个人采用LSTM模型进行建模,在每个时间步运用社会池化层对隐藏状态进行处理。

通过采用不同的控制参数设置进行消融实验,在本节内容中我们将我们的完整方法命名为SGAN-kVP-N(Simple GAN with k-Var losses and pooling modules)。其中kV代表模型是否采用了多样的损失函数来进行训练(当k=1时,则表示未采用多样化的损失函数),而P则代表采用了我们提出的池化模块设计。在评估阶段,则是从模型中多次采样,并根据L2范数意义下的最佳预测结果来进行定量评估。其中N则代表我们在测试过程中从模型中所采集的样本数量。

评价方法: 该评价方法借鉴了文献[1]的技术路线。在实验设计方面,则采用了留一法作为核心策略,在四个不同的数据集上完成训练,并将模型在测试集上的性能表现作为评估指标。本研究记录了轨迹数据8次采样(总计3.2秒),并基于此生成了8次采样(3.2秒)和12次采样(4.8秒)的预测结果。

4.1.定量评价

在表1所示表格中进行比较分析后发现,在不同基线下评估了ADE与FDE两个关键指标。正如预期所示,在tpred=12时预测效果尤其欠佳的原因在于线性模型仅能模拟直线运动轨迹。而采用LSTM架构及其变体S-LSTM则显著优于基准线性模型。值得注意的是尽管S-LSTM架构相较于LSTM有明显改进但经过尽可能详尽的努力重新实现了实验过程后我们仍观察到S-LSTM性能未超越LSTM水平

相较于LSTM而言, S-GAN-1×1架构在性能上略逊一筹.由于每个预测样本代表了多种潜在未来的可能性,因此条件输出表明条件输出涵盖了多种与真实结果不同的合理未来预测情况.在分析多个样本时,我们的实验结果显著优于所有基准方法,这进一步揭示了问题具有高度多模态性.值得注意的是,在这种情况下,S-GAN 1×1架构未能充分捕捉到所有的可能性.然而,S-GAN 20×20超越了其他所有架构,因为品种损失促进了网络产生更加多样化的输出结果.相比之下,S-GAN 20×20显著超越了其他所有架构.尽管我们提出的具有池化层的整体架构在性能上略逊一筹,但在下一节我们将展示池化层如何帮助模型更准确地识别社会可信的行为路径.

速度: 在自动驾驶汽车等需要准确预测行人行为的现实环境中,在速度方面我们的方法具有显著优势。我们将该方法与两个基准LSTM模型(LSTM和S-LSTM)进行了对比实验。实验结果表明,在计算速度方面,默认情况下一个简单的LSTM模型表现最佳(执行速度最快),但它无法避免碰撞风险并提供准确的多模态预测结果(如表2所示)。值得注意的是,在计算速度方面我们的方法比S-LSTM快16倍(见表2)。这种性能提升得益于我们采用了不同于传统池化机制的设计:没有在每个时间步进行池化操作(如图3所示)。与基于每个行人计算其占据网格区域的复杂S-LSTM模型不同,在我们的设计中池化机制采用了相对简单的多层感知机(MLP)结构后直接进行最大值池化操作。实验表明:在实际应用中我们的模型可以在相同的时间段内即可快速生成20个样本预测结果(如图3所示),显著提升了系统的实时响应能力

表2展示了与S-LSTM速度(秒)对比的结果。我们实现了比S-LSTM 16倍的加速,在同一时间段内生成了相当于S-LSTM单次预测16个样本。值得注意的是,在实现这一性能提升的同时,并未采用逐时间步执行池化的策略;相反地,在每个时间步执行池化会导致明显的性能瓶颈但不会影响准确率水平。所有方法均在Tesla P100 GPU上进行了基准测试以确保结果的一致性

评估多样性:可能会质疑如果我们仅仅从模型中获取更多样本而未减少物种多样性会发生什么?我们对比了基于不同设置的SGAN架构(SGAN-1V-N与SGAN-NV-N)的表现特征。需要注意的是,在测试阶段抽取N个样本来构建模型时,默认采用基于k = N的比例进行物种多样性损失训练(其中k表示每类保留样品的数量)。如图4所示,在所有数据集上分析结果显示:单纯从已有的训练结果中抽取更多样本来推断并不足以提升准确性。相反地,在增大k值的过程中我们观察到显著提升的效果表现:当k值达到100时比 baseline提升了约33% 的准确度水平。

图4展示了多样性损失的影响。对于基于SGAN的另一种变体-SGAN-1V-N(记作SGAN-1V),我们进行了单个模型的训练,在每个序列的训练阶段采样一个样本,在测试阶段则采样了多个样本。而对于基于SGAN的另一种变体-SGAN-NV(记作SGAN-NV),我们采用了多样性的损失函数进行多轮模型的迭代优化,在每一次迭代中都使用了N个不同的样本数据来进行监督学习。通过引入多样性的损失函数(即所谓的"多样性损失"),我们的实验结果表明,准确率得到了显著提升。

4.2. 定性评价

在多智能体(人)场景中,必须建模一个人的行为对其他人的行为产生影响的过程。传统的活动预测与人类轨迹预测的方法主要依赖于人工构造能量势模型以模拟其中的吸引力与排斥力,并以此来解释复杂的相互作用机制。我们采用了一种全新的数据驱动方法,并通过引入一种新的聚合机制来模拟人与人之间的互动关系。当人们共同行走时,在选择路径的过程中会考虑到个体间的个人空间边界、潜在碰撞的可能性、目标规划以及自身以往的行为模式等因素的影响。本节首先评估所设计的聚合层性能特征,在随后的部分中则分析了该网络在三种典型社交情境下的预测表现情况。尽管该模型旨在对所有人都进行联合预测分析以提升整体效果但为了简化起见我们仅展示了部分结果作为代表并用图中的首字母标识参与场景中的每个人(如人B用黑色表示人R用红色表示等)。此外为了便于引用我们将SGAN-20vp-20简记为SGAN-p并将SGAN-20v-20简记为SGAN-v

4.2.1池化Vs非池化

从定量评估的角度来看,在指标数据上两种方法的性能表现较为接近(见表1)。然而,在定性层面而言,我们发现:第一,在强制全球一致性方面SGAN略好于SGAN- p;第二,在符合社会规范方面两者表现相当。为此我们进行了深入考察:比较了SGAN与SGAN- p在四个典型的社会互动情境下的具体表现(参见图5)。值得注意的是:尽管这些情景均为人工构建的环境模型,并基于真实世界数据进行了训练;但我们特意设计这些情景仅为模型评估服务:它们既不简单也不复杂到易预测的地步;也不简单到难以捕捉其潜在规律的程度。对于每个实验设置我们生成了300个样本样本点;并分别绘制了轨迹分布近似图以及平均轨迹预测曲线。

场景1及场景2展示了我们模型通过调整方向以避免碰撞的能力。当两人朝着同一方向前进时,在集会中模型得以预测一种被社会所接受的方式——向右行驶的权利。然而,在这种情况下,S GAN会导致碰撞。同样地,与S GAN相比,S GAN-p能够成功模拟群体行为并预判避让,并且成功维持情侣共同行走的行为(如图所示)。

人类倾向于调整速度以规避碰撞,在场景3中描述了一位G人在后方行走另一位B人前方移动。若继续维持各自的速度与方向,则会发生碰撞。模型预测G将从右侧进行超车行为。GAN模型无法预判社会所接受的道路选择方式,在场景4中观察到模型推测B人将减速并让行给处于前方位置的G人。

图5:针对四个避碰情形(SGAN未施加池化操作与SGAN-p对比分析),具体包括:两人互动(1)、单体与群体互动(2)、个体跟随前导者(3)、两人成角度接近(4)。对于每个实例,在模型中提取了300个样本,并对它们的密度分布和平均轨迹进行了可视化展示。通过池化操作的应用,在SGAN-p中实现了避免碰撞的社会可接受运动轨迹预测。

4.2.2 pool in Action

在真实的情境下考察了三种情况,人类被迫更改其路径以避让碰撞(见图6)

行人合并:

群体避免:(第二行)人们朝着彼此相对的方向行进时互相躲避是一种常见的现象。这可以通过多种方式进行表现:例如一个人躲着一对夫妇行走(如图所示),或者一对夫妇躲着另一对夫妇避让也是可能的形式。(注:此处"如图所示"应根据上下文适当删减)为了在这种情况下做出合理的预测(注:此处"合理"应根据上下文适当删减),个人需精心策划其行动方案,并将目光投向远处的地方。我们的研究团队通过数据捕捉到人们的这种群体动态,并运用相应的理论进行建模研究。(注:此处"运用相应的理论进行建模研究"应根据上下文删减)该模型成功预测了任意一组人群在特定情境下的方向变化(注:此处"成功预测"应根据上下文删减),这可视为一种有效避开碰撞的方式(col 3,4)。然而,在某些可能导致冲突的情境下(注:此处"某些导致冲突的情境"应根据上下文删减),传统习俗可能会导致右侧让路成为标准做法。(注:此处"传统习俗可能会导致右侧让路成为标准做法"应根据上下文删减)因此,在这些情境下我们的模型能够准确地推断出哪一对夫妻会选择让步的方向。

行人跟随:(第三行)另一个常见的场景是一个人走在别人后面。一个人要么想保持速度,要么想超过前面的人。我们想提请大家注意这种情况与现实生活中的情况之间的细微差别。在现实中,一个人的决策能力受到其视野的限制。相比之下,我们的模型在池化时可以访问场景中所有涉及的人的地面真实位置。这在一些有趣的案例中得到了体现(见图3)。该模型了解到,人R在人B后面,并且移动得更快。因此,它预测B通过改变方向让路,而R保持他们的方向和速度。该模型还能够预测超车(地面真实)。

图6展示了我们模型的不同预测结果。每行呈现的是不同条件下的运动轨迹集合;各列则分别对应我们在四个典型场景下采集的真实运动数据集。其中BEST组的数据最贴近真实情况;在SLOW与FAST两类样本中被试者表现出一致的速度调节策略以避免碰撞;而在DIR类中的个体行为模式则主要体现为转向回避行为特征。通过大量数据训练发现,在各类场景下人类采用了多种避让策略;这些数据不仅帮助我们准确预测每个人的移动轨迹(全局一致性),还能揭示出群体层面的社会可接受行为模式。补充材料还提供了若干反例分析

4.3. 潜在空间结构

在这个实验中,我们旨在探索潜在空间Z的景观。通过在学习到的数据流形上进行行走操作,我们可以深入探究模型生成数据的方式。理论上,在潜在空间中施加特定结构是可能的。通过分析结果发现,在潜在空间Z中存在若干维度与数据生成相关的属性,并且这些维度与图7所示的方向及其变化幅度相关联。

图 7:潜空间探索。潜在流形结构中存在特定的方向与左侧(Left)和右侧(Right)相关联的现象。通过保持相同的历史数据,在不同输入变量z的变化下(或沿不同维度的调整),模型预测结果将呈现左右偏转趋势,并表现出速度上的快慢差异。

5. 结论

在本研究项目中, 我们成功地解决了人际互动建模以及复杂的人际互动场景下的多目标运动轨迹预测问题. 为此, 我们开发出一种创新的基于GAN的人体行为预测编码器-解码器框架, 能够有效融合多源数据特征并精准捕捉未来运动趋势. 同时, 我们设计出一种先进的聚类聚合机制, 能够帮助网络系统自主学习并遵循社会规范和社会伦理准则. 为了提升生成样本的质量和多样性, 我们引入了一个简单的多样化损失函数指标, 并将其与聚类层相结合. 通过在多个符合社会规范的社会场景中的实验验证, 我们的模型证明了其在复杂现实环境下的有效性与鲁棒性

全部评论 (0)

还没有任何评论哟~