Advertisement

论文翻译:Deep Progressive Reinforcement Learning for Skeleton-based Action Recognition

阅读量:

在本研究中,我们开发了一种分阶段强化学习模型(DPRL)用于基于骨架的视频动作识别任务。该目标旨在通过筛选最具代表性的关键帧来提取动作特征并排除不确定性较高的帧信息。鉴于每个视频样本中含有大量候选关键帧供选择,在本研究中我们将这一过程建模为一个渐进式的优化问题,在这一过程中我们需要综合考虑两个关键因素:(1)所选关键帧的质量评估;(2)所选关键帧与其在整个视频序列中的关联性分析。此外,在分析人体骨骼时(即顶点与边分别表示人体骨骼中的关节连接关系),我们采用了图卷积神经网络架构以捕捉关节间的相互关系从而实现精准的动作识别。实验结果表明我们的方法在三项标准测试中展现了强大的性能表现

动作识别是计算机视觉的核心领域之一,在视频监控、人机交互等多个领域都有广泛应用。相较于传统的RGB视频序列而言,在骨架序列中包含了人体主要骨骼节点的紧凑三维坐标信息,并展现出对摄像机位置变化、人体尺度缩放以及运动速度变化较强的抗干扰能力。因此近年来基于骨架的动作识别受到了越来越多的关注。随着性价比更高的深度感知设备(如Kinect)以及姿态估计算法[9]的快速发展,基于骨架的动作识别数据量呈现快速增长趋势[10,11]。

强化学习理论[29]起源于心理学与神经科学对于人类如何在环境中通过经验优化自身行为机制的理解与研究。

Mnih及其团队率先将深度神经网络技术应用于强化学习领域

如图2所示,在图形化过程中,默认情况下会将人体形象化地表示出来。该图形由节点构成,在本研究中节点用蓝色圆点标记;每个节点代表一个特定的人体关节及其三维坐标信息;同时各节点间的连线则揭示出各关节之间的相互作用关系;这些连线根据研究方法的不同可被分为两种类型:一种是基于物理连接的基础之上的内在依赖关系(简称内部依赖),另一种则是基于存在物理断开条件下的外部依存关系(简称外部依存)。为了便于区分不同类型的关联性,在构建加权邻接矩阵时我们通过设定特定权重参数实现了它们的有效分类

图1展示了我们提出的模型的整体架构流程。具体而言,该方法由两个关键组件构成:FDNet框架和GCN模块。其中, FDNet旨在从输入序列中识别出固定数量的关键帧,通过深度递进强化学习算法优化参数。随后,系统会根据关节间的关联关系组织并传递FDNet的输出至GCN模块进行动作识别,最终实现对动作标签的有效分类与预测。值得注意的是,在整个训练过程中, GCN模块会不断优化其参数以反馈给FDNet提升性能,从而实现整体系统的性能提升与效果优化

图的构造:基于人体可被建模为由可动关节与刚性骨骼构成的一系列串联连接体段。这种机械结构的本质特征使其成为了一种图形化的表示方式。其中x∈RN×3表示N个关节位置的具体坐标信息。W则定义了一个节点间的关系权重矩阵。

在这里, 我们通过赋值wii = 0来舍弃每个关节的自连接关系. 进一步说明的是, 在分析关节之间相互作用时,默认将它们划分为两种类型: 一种是基于加权矩阵W的内在依赖关系(由加权矩阵W描述), 另一种是外在依赖关系.

图2所示的线条代表关节间的物理连接;它们具有重要意义,并且各连接关节间的相对距离在整个动作过程中始终保持恒定。外部依赖关系(如图2中标注的橙色虚线所示),即两部分之间断开的状态,则是判断动作类型的重要依据之一。例如,在实际操作中我们可以观察到,并非所有情况下左右手都是直接相连的;相反地,在某些特定场景下它们的表现会呈现出显著差异性特征。在此基础上我们采用W中的参数来建模这种外部依赖关系:通过这种方式能够更准确地反映人体运动学特征并辅助后续的动作分类任务完成

GCNN作为传统CNN的一种改进型架构,在处理非欧几里得空间的数据时表现出色。其主要目标在于分析和处理存在于非欧氏空间中的图形数据。考虑一个包含T个帧的视频序列,在每一步骤中我们通过公式(eqm .1)将每个视频帧转化为对应的图结构(G₁,G₂,…,GT),其中每个Gₜ代表第t个时间步所对应的图节点集合。随后我们将这些图输入到基于图的卷积层进行特征提取

其中y(深入研究,W)和*分别构成基于图形的卷积[38]的具体实现及其运算符细节将在后续章节详细阐述。随后将zt输入到全连接层中进行处理,并将其输出标记为gt;对于t=1,2,…,T,在时间轴上依次连接每一个gt生成对应的特征图G

其中G被定义为一个三维张量,并最终经过传统CNN模型完成动作识别任务。为了实现目标模型性能的优化,在GCNN网络中我们采用分类交叉熵损失函数对模型参数进行训练。

在本网络中采用图卷积作为基础模块。该网络的核心模块是基于图卷积层的设计。在谱域中定义了一个归一化的拉普拉斯矩阵 Laplacian[39]。其归一化的定义如下:其中最大的特征值 λ_max 对应于拉普拉斯矩阵 Laplacian 的最大特征值。这样,在频域中进行的卷积操作等价于时域中的加权平均

渐进式强化学习框架在骨骼视频的动作识别过程中展现出显著特点

图3展示了基于骨骼结构的关键帧选择流程,在一个骨架序列中依次筛选出关键帧。通过不断优化采样策略,在视频中提取出信息含量最高的几个片段作为代表样本。每个状态记录所选帧的具体信息、其索引位置以及整个序列的时间轴数据。根据当前状态及FDNet模型推断出每一轮选中的帧随后将向左、保持不变或向右移动的方向趋势

通过强化学习精炼帧,在每一次迭代中。如图3所示,该过程基于FDNet框架实现。其中,在与环境交互时同时更新其状态,并根据总奖励折扣进行优化以调整所选的帧;最终能够生成给定数量内具有最大区分度的帧集合。下文将详细阐述此MDP模型中的状态、动作及奖励机制。

国家:MDP的国家由两个独立的部分{Sa, Sb}组成。Sa = [F, M],它是两个张量F和M的串联,由一个骨架视频的全局信息组成,它是一个形状为F×N×3的张量。其中f、N、3分别表示坐标系、关节、轴的个数。对于不是f帧长的视频对于不完全是f帧长的视频,我们使用双三次插值[42]来得到f帧的视频,其中第一帧和最后一帧与原始的一帧相同。与F相似,M是一个M×N×3张量,表示所选M个坐标系的信息。引入M是为了隐含地提供FDNet与知识的视频的哪些帧被选择。Sb,所选索引的二进制掩码,被设计用来显式地使FDNet知道选择。它是一个f维向量m个元素为1,其余为0。这里我们设f为100。动作:动作即FDNet的输出,是所选帧的调整方向。我们定义3种类型的动作,如“向左移动”(动作0)、“保持不变”(动作1)和“向右移动”(动作2)和移动步长设置为1帧。如图4所示,FDNet在每次迭代时发出向量a∈Rm×3,其中Ai,j∈[0,1]表示第i个选定帧选择动作j的概率。确保m帧的顺序,例如第一选择框架应该暂时比第二选择,我们设置了上限框架的调整Υi (i = 1,2,……, m)为所选帧集中某一帧与相邻帧之间的中间值:

符号⌈⌉在表示装天花板函数。此外,下界Λi (i = 1,2,…,m)被设定为作为当前帧与前一帧之间的一个中间值。

在当前框架中, 两个数组的长度m. 我将它们绑定到框架内的节点进行操作, 并根据条件判断是否出现失效情况. 具体来说, 则可以表示为:

图4展示了基于骨架的视频中用于调整关键帧的FDNet架构。该网络分别接收两个输入:Sa和Sb。其中Sa包含了整个视频的所有信息;而Sb则是所选指标对应的F维二进制掩码(其F元素赋值1),其余位置赋值0。接下来,Sa通过一个卷积神经网络(CNN)中的一个3×3核大小的卷积层进行处理,并随后通过一个全连接层(fc1)进行进一步处理;而Sb则通过另一个全连接层(fc2)传递到后续计算过程中。在将这两个部分特征传递至fc3之前,我们需要将这两个部分特征进行融合连接,最终经过Softmax函数处理后输出结果

这样,行动就会对国家转型产生影响。

奖励机制: rewards function r(,) represents the incentives assigned to effective actions taken by good agents in generating rewards from pre-trained GCNN. Inputs to this function are selected frames of video based on our group's parameter T = m. In the first iteration, r will assign a value of 1 if the prediction is correct and -1 otherwise. For subsequent iterations (n > 1), we first define r_0 as follows:

其中c为视频数据的真实标签 Ground Truth ,P_n,c表示在第n次迭代过程中 视频被预测为c类的概率。
奖励r_0取值于{-1,1} 该值反映了对真实动作预测准确性提升 即其他动作预测可能性总和降低。
我们选择该函数通过概率变化增强了对奖励的激励效果 实验结果表明 该函数在激励效果上优于数值型函数。
此外 强烈刺激r=Ω 预测时执行行动从错误纠正一次迭代后 而强大的惩罚r=-Ω 如果把 则会显著影响后续决策。
因此 奖励的形式则为r:

n > 1可以写成::

渐进式强化:如图4所示,在本研究中我们提出了一种名为FDNet的新架构。该架构由三个卷积层和三个全连接层组成。通过均匀采样初始化的状态S预测最佳动作。其中,S分为两部分分别经入FDNet进行处理:一部分为Sa,经卷积网络处理后输出结果为Xa;另一部分为Sb,经完全连接层处理后输出结果Xb。随后,将两个全连接层的输出连结后经第三个全连接层融合生成最终特征向量Y。最后,应用softmax函数以最大化累积奖励为目标计算交叉熵损失:

该损失项反映了参数变换的作用方向。通过将R归一化处理为Re的方式,在优化过程中能够更有效地提升梯度下降的效果。这使得整个优化过程能够更有效地收敛到全局最优解。

在算法1中概述了我们提出的DPRL流水线的设计方案。深度强化学习(DRL)问题通常可分为两种主要类型:深度Q-学习(Deep Q-Learning)和策略梯度方法(Policy Gradient)。如前所述, 我们的动作空间由对m个关键帧进行不同选择构成。每个被选中的帧提供三种不同的动作选项, 其组合数量呈指数级增长至3^m种可能性。由于深度Q-学习计算复杂度过高, 为此我们采用了一种策略梯度方法, 其输出维度随状态空间线性增长而不会爆炸式膨胀。

GCNN和FDNet的结合:

从训练集中所有基于骨架的视频序列中提取数据,并按照统一的比例对其进行采样以生成具有固定空间分辨率和时间长度的序列。这些采样后的时空序列被用于训练深度骨架循环神经网络(GCNN)以学习关节间的依赖关系空间表示。在此基础上,在保持GCNN参数稳定的情况下逐步优化分解网络(FDNet),通过在时域上更新每个视频的关键帧位置来提升模型性能;同时GCNN会根据FDNet的选择结果提供奖励信号给其优化目标,并动态调整奖励函数以指导关键帧的选择策略优化过程相互促进:GCNN通过评估关键帧的质量改进自身预测能力;而FDNet则根据GCNN反馈不断调整关键帧的选择标准以提高动作识别精度

实验
我们在三个常用的数据集上展开了系统性研究以评估所提的深度学习推理架构DPRL性能并与其最先进的骨架基于动作识别模型以及基准模型进行了对比分析下面将详细介绍实验设计及其结果。

NTU+RGBD Dataset (NTU)[22]是当前规模最大的动作识别数据集,在该研究中包含了超过5.6万条序列以及4千多万帧图像。该数据集由41名不同人类参与者的数据构成,并涵盖61个操作类别。研究采用了25个关键人体关节的三维骨骼数据作为输入特征进行建模。基于此基准模型设计了两个评估方案:交叉验证测试(CS)和跨视图测试(CV)。在交叉验证测试中(CS),我们使用了来自21名被试者的约87.8万样本进行训练,并从中选取约39.9万样本作为测试用例;在跨视图测试方案(CV)下,则采用了约37,920张测试图像进行性能评测。

--------------------------------------------------------------------------------------------------------------------------

基线方法: 我们将每个视频组织为T×N×3的三维张量,其中T代表均匀采样的帧数,N表示人体关节的数量,而第三个维度则用于存储关节三维坐标信息。根据经验设置,T值取为
30, N设定为此值时对于NTU SYSU和但各自的差异较为明显。随后,我们通过一个由3个卷积层和3个全连接层构成的深度神经网络模型来识别动作特征。具体而言,各卷积层采用大小均为
3×3且通道数量分别为64、128以及256的设计方案;在每组卷积操作后均接续最大池化操作三次(大小均为2×2)以进一步提取高阶特征信息。接着,三个全连接层分别具有
1024、512及C(动作类别总数)个神经元节点用于最终分类判断。为了验证我们提出的DPRL模块的有效性及其与其他方法的区别性,实验中我们对多个典型数据集进行了评估比较:包括基准模型(标记为Ours-CNN)、提出的新架构版本(标记为Ours-GCNN)、独立开发的DPRL模块(标记为Ours-DPRL)以及两者的融合版本(标记为Ours-DPRL+GCNN)。其中,our-DPRL表示采用基于DPRL的方法选择采样帧序列而非传统的均匀采样策略;而our-DPRL+GCNN则指将GCNN结构替换于传统框架中进行测试。

实现细节:该方法主要依赖于Tensorflow[46]与Keras[47]工具包进行开发,并基于两个Nvidia GTX 1080 GPU构建了网络结构。这两个子网络均从头开始进行了训练过程。对于GCNN模型,在设计图卷积层时选择了ELUs[48]作为激活函数,并设置了dropout率值为0.5。同时将图卷积层的设计参数设定为5x5的卷积核尺寸,并针对NTU数据集采用了不同批次大小(分别为64, 16, 8)进行预处理操作。通过这种设计,在捕捉数据内部关联的同时也保持了外部相关性的完整性。该模型采用了Adam优化器进行参数更新操作,并设置了初始学习率为10−3以促进收敛过程。其中参考文献[20]中提出的maxout方法被采用以解决NTU数据集中样本数量不均衡的问题,在具体实施过程中未对骨架数据进行旋转或归一化处理

在图4所示的FDNet架构中,在线性层上设置了dropout率为0.5的方法,并采用ReLus作为激活函数;通过Adam优化器以1e-5的学习率对FDNet进行训练。动作被随机选择的概率对应于Ai,j;我们经验中的τ参数经历了7次迭代并调整完成,在方程Eqn.10中设定Ω值范围为25时,则满足Ω>τ×| r_0 |执行强大的模拟与惩罚机制。

此图:图5。所选结果的选择性展示。横坐标代表帧索引;纵坐标则代表每个索引对应邻域内被选中的帧的数量。

对比实验中(表1),我们比较了动作识别的准确率(%),基于南大的数据集进行评估。其中,GCNN、GCN N₁和 GCN N₂分别用于图构建的不同邻接矩阵;具体来说,GCN N₁对应: 1 ,而 GCN N₂也对应: 1。

在对NTU+RGBD数据集进行测试时

DPRL分析:我们考察选定的时间片段及其结果表现于图5中。如前所述, 我们认为最重要的发现是不同时间段的意义体系。

本图展示了DPRL培训过程中的动态变化情况。观察图形可知,在培训进行过程中, 正比率逐渐稳定在1以上, 这一现象进一步验证了逐步细化方法的有效性.

通过深度强化学习逐步估计的方法可以应用于任何一个给定的视频。这表明,在视频的关键阶段应集中对帧的选择。如图5所示,在横坐标代表选取的不同帧索引位置上(即x轴),纵坐标显示了各选片点附近的平均选片数量(即y轴)。这些动作与相应的数据曲线呈现显著差异性;我们用蓝色标记选定的主要片段,并以灰色标记已被放弃的片段;这些片段对应的索引位于图表下方。

(a)该动作涉及三个步骤:第一步是从背后取出外套;第二步是从手腕处提拉外套;第三步是将外套放置于手腕上方。在第一阶段中,动作幅度较大且持续时间较长;后两个阶段较为平稳且迅速完成。值得注意的是,尽管夹克可能会造成一些咬合和噪音,我们的DPRL系统能够过滤掉这些低质量帧。(b)该动作的标签为'拨打',这一分类并未包含特别重要的细节。在所选帧中展示了t过程的DPRL训练流程如图6所示,其中横轴代表训练epoch数,纵轴代表正比率这一指标,其计算方式如下:将正结果的数量以npos表示,负结果的数量以nneg表示。我们将正比率定义为npos与nneg之间的关系,即\frac{npos}{nneg}。显然,

表2。比较动作识别的准确率(%)于中山数据集。

保持总分类准确率不变。通过图6可以看出,我们采用了渐进细化的方法,并且其有效性得到了充分验证。通常情况下,在一个时代中会产生约3000个积极成果。

GCNN分析:基于图的表示学习挖掘身体关节之间的依赖关系。表1中的实验结果表明,基于图形的模块提高了性能。在实验中,我们尝试了不同的参数,将它们作为不同的权重分配给内在依赖关系和外在依赖关系。在表中,GCNN1忽略了外部依赖关系GCNN2同样重视这两种依赖关系,GCNN在强调内在依赖的同时保留了外在依赖关系。结果表明,GCNN性能最好,GCNN2优于GCNN1。结果表明,两种依赖关系对行为识别都有贡献,其中内在依赖关系更为重要。然而,通过仔细和动态地调整分配的权重,仍有进一步改进的空间SYSU-3D数据集的结果我们将我们的方法与最先进的基于骨架的动作识别方法进行了比较,如表2所示。正如所看到的,我们提出的方法在这个数据集上优于所有其他最新的方法。我们还发现,本文提出的DPRL方法可以将基线分类准确率提高1.2%,而结合基于图的表示学习模型可以使基线分类准确率再提高0.2%。这说明了在两个模块中选择关键帧和学习空间依赖性的有效性。

在UT数据集上进行实验对比的结果表3展示了UTI-Kinect数据集与其他现有先进方法之间的性能差异。通过实验结果可以看出,在改进型深度关系学习(DPRL)模型以及基于图的模型之间存在显著性能差距。值得注意的是,在现有的研究中并未完全超越VA-LSTM这一领先技术的具体原因在于该算法特别关注不同视图间的特征匹配问题,在实际应用中这种情况较为普遍。相比之下,在GMSM算法的基础上提升了约1.1%其中也采用了另一种图形模型

结论
在本研究中,我们开发了一种基于图深度学习模型(DPRL)的方法用于视频动作识别任务中的人体关节关系建模。该方法旨在从输入视频序列中提取最具代表性的关键帧信息,并通过图神经网络捕获人类关节之间的复杂依赖关系。实验结果表明,在SYSU和UT数据集上该模型展现出很强的竞争优势。同时,在广泛适用的视频摘要与事件检测等后续研究方向上也具有重要的应用价值

全部评论 (0)

还没有任何评论哟~