论文翻译:Ensemble Deep Learning for Skeleton-based Action Recognition using Temporal Sliding LSTM networ
探讨了骨骼关节特征表示与动作识别的时间动力学建模问题
计算机视觉领域的研究者们将这一具有挑战性的领域视为一项重要任务。其重要应用领域包括视频监控、人机交互、体育视频分析等多个方面。该领域的传统研究主要聚焦于行为特征的识别。在单目RGB摄像头下难以全面捕捉三维空间中的人体动作细节。随着三维数据采集技术的进步速度不断加快,在这一过程中相关研究也取得了显著进展。
人体被一种称为"人体骨架"的线段结构所代表;其构成部分是由关节连接而成;而关节的运动则构成了整个图形[1]在运动估计与识别方面的重要性基础。若能在三维空间可靠提取与追踪人体骨骼,则通过对其时间序列中的运动特征进行分类分析来实现动作识别。当前研究主要依赖于实时骨架估计算法的应用,在此框架下利用深度传感器能够获取较为精确的人体关节坐标数据集[15,22]。这些精确的姿态估计技术则推动了基于"人体骨架"的动作识别研究的发展。
基于人体骨架的动作识别存在两个主要问题。第一个问题是输入数据的质量问题变化包括比例变化旋转变化以及平移变化另一个问题是人类行为建模呈现高度可变性动态特征彼此之间具有相似性现有的动作识别方法主要依赖于相对关节坐标的预定义模式[17 16 6]这些方法未能充分考虑骨骼关节的绝对运动特性在人类行为建模方面研究表明长短期记忆(LSTM)网络[6 24 10]在性能上优于时间金字塔[17 12 16]以及隐马尔科夫模型[21 20]然而现有的LSTM网络仅关注骨骼关节的整体时间动态而忽略了细节的时间动态特性在本文中我们提出了一种新的动作识别集成时域滑动LSTM网络如图所示首先对输入骨架序列进行坐标变换处理以增强数据的缩放旋转和平移鲁棒性其次我们采用了基于时间差异的时间运动特征而非简单的关节位置信息

图1展示了所提深度学习网络的整体架构。该系统主要包含坐标转换模块、运动特征提取模块、基于多项LSTM的序列建模层以及集成式的深度学习模块四个部分。
这有助于优化我们的网络以聚焦于真实骨骼运动的位置信息。此外,在空间上采用了包含短期、中期和长期三种lstm模型的多周期lstm系统来处理运动特征的变化情况,并且这种设计能够有效捕捉不同时间尺度上的动态特性。此外,通过整合多个术语模型来捕获各种动作的动力学特性。
相关的工作
在本节中,我们简要回顾现有文献与提出的处理基于人体骨架的行动识别的两个主要问题的模型密切相关。一是骨架输入序列的特征表示,二是动作识别的时间动态建模。Wang et al.[17]通过关节的两两相对位置来表示人体运动,具有更多的区别特征。Cho等人[4]标准化了骨架的方向,这样每个骨架都可以在原点有根。利用身体各部分对之间的相对几何关系,Vemulapalli等人[16]表示李群中人体部位的三维几何关系。Du等,[6]利用Cho等人[4]标准化了骨架的方向,这样每个骨架都可以在以髋关节中心、髋关节左、髋关节右关节坐标为坐标系原点。这种相对坐标系在对骨骼关节的绝对运动进行分类时,会造成对动作的误解。
Wang等人[17]提取出三维关节位置和局部占用格局,然后进行处理傅里叶时间金字塔(FTP)表示动作的时间动力学。Vemulapalli等人[16]就业动态时间扭曲(DTW)和FTP来处理速率变化、时间错位、噪声等问题。Luo等人[12]提出了一种新的字典学习方法,该方法没有建模特征的时间演化。时态金字塔匹配,保存时态信息。Xia等[21]采用基于直方图的三维人体姿态表示,然后使用离散隐马尔可夫模型(HMM)识别动作。Wu和Shao[20]提取了高水平的骨骼关节特征,然后利用它们估计HMM的发射概率来推断动作序列,尽管DTW、FTP和HMM等方法在处理时间动态方面很有用,但最近使用的LSTM网络在建模时间动态方面表现出了优于传统方法的性能。Du等人[6]提出了一种递归神经网络,将低级身体部位的时间表示建模并组合为高级身体部位的表示。利用新的正则化方法开发了端到端全连接的深度LSTM网络,用于学习骨骼关节的共现特征。Liu等人[10]在LSTM中引入了一种新的门控机制来学习序列数据的可靠性,并相应地调整其对存储在记忆单元中的长期上下文信息的更新效果。由于这些研究一般只观察到人类行为的长期记忆,因此很难对包括短期、中期行为等在内的各种时间动态进行完整的建模。
贡献
我们的主要贡献安排如下:
我们进行了人体骨骼特征表示的研究,并旨在获取其在各种变化情况下的鲁棒性以及提取显著的运动特征。实验结果表明,在动作识别性能方面该特征表示方法能够实现显著提升。我们通过多时间尺度滑动LSTM网络集合来构建模型架构,在此过程中它能够分别捕获不同时间尺度的时间依赖关系以及空间骨架的姿态特性。与传统的集成研究方法不同的是,在这种架构下我们的模型能够有效地学习到不同的空间与时间动态行为特性
我们采用了MSR方法对Action3D数据集[9]、UTKinect-Action数据集[21]、NTU RGB+D数据集[14]、西北- UCLA数据集[19]以及UWA3DII数据集[13]进行了综合评估,并记录了相关结果参数值信息以确保结果的一致性和准确性。经过详细的数据分析与对比研究发现:所提出的深度学习模型在动作识别领域表现出了显著的优势与竞争力,并且其性能指标均超过了现有同类算法的基准水平
在本节中讨论的是所提出的系统模型。首先阐述了所提出的系统特征表示,并涉及到了输入骨架以及运动特性的提取过程。随后采用了一种基于时间域上的滑动长短期记忆网络(LSTM)这一模块来实现功能。随后详细说明了从训练到测试的过程。
特征表示:
当获取到骨架时,在实现某种动作的过程中能够进行一次方向偏移操作。换言之, 虽然整个动作序列属于同一类别, 但由于存在对称性不足的问题, 动作的整体特性可能会产生差异性变化.为了消除这种差异性影响, 我们需要将原坐标系系统进行变换处理, 其方向一致性特征可以通过图2(b)来具体观察.

在图2中展示了特征提取流程。(a)展示了基础输入骨架架构(st).(b)展示了转换后的输入架构(ˆst).(c)识别出了关键运动特性(xt).
让s i t∈R3×1为第t个骨架框架第i个关节的坐标。变换后的骨架关节坐标为:

改写说明

其中v₁和v₂₁分别代表每个序列中垂直于地面以及与初始骨架髋左关节和髋右关节相关的差向量。(2)Proj_v₁(v₂)以及v₁与v₂的乘积分别表示向量v₂在空间直角坐标系中的投影以及两者的外积。(3)H L t=0及sH R t=0分别代表各序列初始状态下的髋左右关节的具体坐标位置。图2(c)展示了显著运动特征提取的过程。我们采用两帧之间的时序差异而非直接计算骨骼关节的空间位置来描述人体动作。当仅关注骨骼关节当前位置时[8]的动作特征能够反映真实的人体动作轨迹。在此基础上我们进一步利用上述运动特征作为所提模型的主要输入参数。设ˆ圣∈RSIN则第t个坐标系下的转换后的骨架坐标即为ˆ圣×1其中SIN为所提系统所需处理的空间维度数。经此变换得到的就是各序列对应的最终骨架坐标的转换结果。

其中concat([elements], 0)和|J|分别代表沿着第0维进行连接以及集合J中元素的数量。通过上述操作流程可获得运动特征序列b:

其中D代表时间差异量。基于D的变化值的不同取向,在实际应用中这些运动模式能够呈现出多样化的形态,并采用(D + 1)的方法对其进行标准化处理。在输入模型时, 我们可同时结合转换后的骨架坐标数据以及相应的运动特征信息。将这些数据统一转换为以厘米为单位的尺度后, 在模型训练过程中表现出较高的效率
时间滑动LSTM一般情况下,LSTM网络被用来建模时序动态[7]。虽然遗忘之门。
网络有助于短期及中期依赖性的获取;然而完全遗忘 LSTM 细胞的记忆几乎难以实现。为了构建这些依赖关系模型, 我们提出了一种基于时间滑动的 LSTM 模块 TS-LSTM. 如图 3 所示, 每个 TS-LSTM 模块都具备可调节的不同数量的 LSTM 网络(Nl)、可变的时间窗口宽度(Wl)以及时间段跨度(T Sl)。这相当于在处理动作序列长度变化的情况时, 能够灵活地通过调整 TS-LSTM 的时间窗口宽度以及时间段跨度来实现分类任务的需求。

定义x_{l,t}为TS-LSTM网络在时间步t处的输入。记D_l为其差分序列(difference sequence)。通过D_l与D_{5}的操作结合,在时间步t处选择合适的权重系数α_l,t ∈ [0,1]来计算当前时刻的状态值x_{l,t} = α_l,t * (D_l - D_{5}) + (1 - α_l,t) * D_l^{(6)}(如图4所示)。对于每个时间步t,在该位置上的Ts LSTM单元及其所连接的第一个 LSTM 层在时间步t处的状态输出量提取出来。

其中,
是一种S型函数,
i_lntf_lnt,
c_{l,n,t},
o_{l,n,t},
h_{l,n,t}
分别是TS-LSTM模型中第n个LSTM单元在第t帧时的输入门、遗忘门、细胞激活门以及输出门和输出向量。(6)-(9)中的所有矩阵w_{l,n,m}都是指第l个TS-LSTM网络中第n个LSTM单元从第n层到第m层的时间权重参数。

图4展示了由短时间阶段、中长期阶段、长时期阶段以及位姿信息组成的TS-LSTM模块整体架构,在该架构中各部分对应的序列长度分别为:短时间阶段对应序列长度为0;中长期阶段对应序列长度为1至2;长时期阶段对应序列长度为3至5;而位姿信息则对应于序列长度为6。
提出了网络体系结构:
如图4所示

其中,在n (\cdot)_n=0处计算得到[ (\cdot)_0, (\cdot)_1, \dots, (\cdot)_{N_l-1}]这一序列在第l个TS-LSTM及其内部第n个LSTM模型下的第m个序列均值,并定义为q_{l,m}^{M}= q_{l,M}^{\text{年代}/\text{王}}。具体而言,在每个阶段中将第m个序列的SumPool与MeanPool输出结果进行连接运算:

在[?]T表示转置运算。得到各部分的线性活化为:

在LN层中,在该种网络架构下

其中c和NC分别表示对应的类索引和操作类总数。以最大化所有训练样本的似然值为目标,在模型训练过程中采用交叉熵损失函数作为两个目标函数的损失函数:

其中y m c和NM分别为第m个样本的ground-truth label和训练样本总数。在训练过程中,在最小化两个目标函数的基础上进行模型优化。在测试阶段,则对Pr (c|a m)、公关(c |米米)和公关(c |米l)这三个线性激活值取平均值以获得集成输出v1;随后利用4个线性激活值(包括v2年代, 公关(c |米 米 ), 公关(c | 米 l ) 和 Pr (c|a m))进行进一步的计算以获得最终结果。
实验:
在本节中, 我们对所提出的深度学习模型进行了系统性评估, 并将其与五个重要基准数据集上的最新方法进行了对比: 包括 'MSR Action3D' 数据集(参考文献 9)、'UTKinect-Action' 数据集(参考文献 21)、'NTU RGB+D' 数据集(参考文献 14)、'NorthwesternUCLA' 数据集(参考文献 19)以及 'UWA3DII' 数据集(参考文献 13)。通过深入分析, 探讨了动作识别过程与多层 TS-LSTM 特征之间的内在关联
我们通过在五種不同的架構上進行實驗展示了我們提出技術的效果。具體來說:第一個模型采用了基於骨架的动作識別的LSTM 作為基線架构;第二個 model引入了人类认知坐標的概念並将其應用於第一個 model 中;第三個 method則利用了顯著運動特徵这一关键特性並将其整合到 second model 中;第四個 method采用了cost為(22) 的TS-LSTM v1集成;最后一個 model則采用了組合式的TSLSTM v2結構
数据集和参数设置:
MSR Action3D 数据集:此数据集通过采用 Kinect 等深度传感器进行捕捉。其中包含 10 位参与者完成 2 至 3 次重复的动作序列,在每一段动作中总共记录了 557 条有效的动作片段,在每帧图像中包含 20 个骨骼关节的位置信息。
UT Kinect-Action 数据集:此数据集基于单一静止状态下的 Kinect 设备进行捕捉。其中包含了来自不同参与者的 10 种基本动作,在每个动作中参与者会重复两次。总计记录了 199 条有效的动作片段,并且给出了每个动作中涉及的人体姿态坐标信息。
这一标准被视为具有挑战性是因为参与者之间的姿势差异以及同一参与者不同姿势之间的显著差异。
NTU RGB+D数据集是由三个微软Kinect v2摄像头捕获的数据集构成的。它总共包含60种不同的动作类别,并分为三大部分:其中包括40种日常动作、9种与健康相关的动作以及11种互动动作。每个动作序列都记录了25个骨骼关节的三维坐标信息,并且由于内部类别变化以及不同视角下的捕捉效果,在难度上有着很高的要求
northwest - ucla 数据集:该数据集由三台微软 Kinect v1 摄像头同步采集。它包含共计 1494 个动作片段,并涉及十个不同的动作类别。每个动作被十个参与者分别进行了 1 至 6 次练习。该数据集记录了来自不同角度的观测信息
UWA3DII数据集基于微软Kinect v1摄像头获取。该集合涵盖共30种人体动作。每种动作均由10名参与者完成4次采样操作。每个动作均通过前向、侧向及顶向视角捕捉。由于不同视角带来的物体遮挡问题以及人体动作高度相似性而呈现出较大的挑战性特征

本表为本文所提出的模型的参数设置。其中 TS-LSTM_l 是该模型中的第 l 个 TS-LSTM 部件,在其具体参数配置中包含了 (D_l, S_l) 两个基本要素部分。其中 LN 表示 TS-LSTM 各组成部分拼接后的隐藏单元数量;具体而言,在 TS-LSTM 结构中:
- S 类别对应短时序列特征;
- M 类别对应中时序列特征;
- L 类别对应长时序列特征;
- P 类别对应姿态相关特征;NT 是所有样本数据的最大骨架帧长度。
表1列出了我们提出的主模型的参数配置。每个数据集被输入的所有骨骼关节作为输入。实验采用MSR Action3D(MSR)与UTKinect-Action(UTKi)两个公开数据集上的所有序列进行测试。基于NTU RGB+D(NTU)、NorthwesternUCLA(UCLA)以及UWA3DII(UWA)三个公开数据集中的有效序列被选入实验样本;这些序列均满足长度要求即至少包含10帧以上的有效帧数。在不同架构设计下,在LSTM网络中根据输入特征类型执行融合操作或平均池化处理;每个长短期记忆层(LN)保留了隐藏单元数量的40%。
结果与比较:
MSR Action3D数据集:我们依据[9]所述的标准协议开展研究工作。按照该协议的要求,在具体实施过程中将数据集划分为三个动作类别:动作类别1(AS1)、动作类别2(AS2)以及动作类别3(AS3)。其中AS1由受试者编号为奇数(1, 3, 5, 7, 9)的数据构成,在AS2中包含偶数编号(2, 4, 6, 8, 10)的数据样本用于验证过程。参考表中的实验结果表明,在本研究中我们提出了一种集成TS-LSTM模型(版本v1和v2),其平均精度分别达到了96.63%和97.22%,并将其与现有方法进行了对比分析

如表2所示,在引入HCC与SMF至LSTM架构后,在该数据集上的平均精度提升至6.1%,这一结果有力地证明了我们所提出的特征表示方案在此特定场景下的有效性与实用性。值得注意的是,在这项研究中构建的TSLSTM模型不仅超越了前人研究的最佳方案[10](提升了约2%),而且在几乎每个动作类别上均优于现有方案(包括AS2与AS3),这一发现充分表明了所提出方案在多维度动作识别任务中的卓越鲁棒性表现。基于UTKinect-Action数据集的研究框架中(参考文献[25]),我们将受试者分为两组:一半用于训练过程的建立阶段(前5个实验科目),另一半则用于验证阶段(后5个科目)。如表3所示,在这一实验设计下(参考文献[23]),我们的模型不仅取得了显著成绩(分别为95.96%与96.97%的准确率),而且这些结果明显优于现有最佳方案中的最高水平(同样来自文献[23])。

与MSR Action3D数据集相比,值得注意的是,通过引入肝细胞癌相关特征及SMF LSTM模型,我们实现了在该数据集中分类精度的显著提升:具体而言,在肝细胞癌相关样本上的准确率提升了约12.12%,而在SMF LSTM模型上的准确率则提升了约21.21%.这一发现表明,在该数据集中我们所提取的特性表现出了显著的优势。通过集成TS-LSTM版本v1和v2,其性能较现有最佳方法提升了大约1%.
NTU RGB+D数据集:本研究采用两个通用的标准评估方案[14]。首先为交叉学科(CS)评估方案,在该方案中一半的数据用于模型训练阶段另一半则用于性能验证环节;其次为跨视角(CV)评估方案,在此方案中选取了两种不同的视角进行模型训练,并以一种特定视角作为验证集进行性能测试。在确定HCC初始基准时考虑到不同视角所带来的潜在影响因素我们采用了基于每条序列初始主干骨段作为基准的方法以避免由不同观察角度导致的基础结构差异带来的偏差如图4所示通过对比现有方法在表征动态行为方面的性能结果表明所提出的框架在捕捉多时空动态特征方面表现出了显著的优势即使在面对具有挑战性的数据集时也展现出良好的泛化能力

图5展示了基于MSR Action3D数据集的动作集合,并通过TS-LSTM v1集成构建的混淆矩阵表呈现了分类结果。每个混淆矩阵表格中的每一行与每一列分别对应ground truth与 prediction三个类别。(一)AS1。(b) AS2。(c) AS3.

该研究参考了评估协议[19]。基于前两个摄像头获取了训练样本集,在第三个摄像头上获取测试集。参考表5的数据, 本研究采用集成TS-LSTM v1和v2模型, 并获得了相应的性能指标: 在 northwestern-ucla 数据集中分别达到了 85.99% 和 89.22% 的准确率; 相较于现有最佳方案, 在同一数据集上的表现分别为 86.09% 的准确率

按照引用文献[13]所提出的交叉视图协议,在UWA3DII数据集中进行研究时
为了深入分析实验结果, 我们采用了MSR Action3D数据集, 其中包含了丰富的动作类别, 这一特性使得其成为评估算法性能的理想选择。
如图5(c)所示, 在AS3上几乎每个动作都被正确分类, 其中'高抛'动作中存在一种特殊情况, 其视觉特征与网球挥杆的动作极为相似, 从人类感知的角度来看也是如此。
在图5(b)中发现'侧拳'常被误分为'手抓', 而'手抓'则容易被误认为是'挥手'或'画x', 这种现象也出现在图5(a)中的'前击'与网球发球行为之间, 它们在顺序上有着显著的重叠区域。
尽管如此, 我们提出了一种集成模型TS-LSTM v13, 在其结构中融合了多个TSLSTM网络以识别这些行为模式。这一模型能够有效区分看似相似的动作类型, 如弯曲、拾取与投掷以及高投掷等操作均展现出较高的识别准确性。
为了深入探讨TS-LSTM v1模型的工作原理及其性能表现, 我们对包含该模型组件的三个子网络输出进行了详细可视化分析, 如图6所示

图6: MSR Action3D数据集AS1在测试集上应用TS-LSTM v1模型后,在动作类别上的Softmax平均概率分布情况如图所示。(a) Softmax0对应的结果。(b) Softmax1对应的结果。(c) Softmax2对应的结果。每个混淆矩阵中的每一行与每一列分别对应 ground truth 和 prediction 的结果。

采用中间阶段的LSTM架构(即为Mid-LSTM),表明全局性时间特性的作用力度显著高于局部性时间特性的作用程度。相比之下,在个别情况下而言,在某些特定动作上偶尔会出现较低的误分类率的现象,则使得模型不容易发生过拟合的问题。例如,在动作"Pickup & throw"与动作"Bend"之间的误分类概率方面而言,在使用Mid-LSTM时会发现此情况下的误分类率少于使用Top-Layer Softmax(即为Top-Layer Softmx)的情形;这表明在Top-Layer Softmx架构下存在的问题,在Mid-Layer Softmx架构中则得到了一定程度上的弥补作用。基于此可知,在本研究中提出的TS-LSTM v1系统架构设计能够有效地利用短期、中期以及长期的时间特性信息来实现非常相似行为的有效区分工作。
结论:
首先通过GramSchmidt过程将人体骨骼转换为人类认知坐标系统 从而提取出人体的姿态特征和运动特征 并成功捕捉到不同时空维度下的动态信息 在此基础上开发了一种新的MAS运用方案 综合考虑不同时间步长长度的LSTM模型 并在此框架下完成训练与测试过程 实验结果表明 在五个不同的数据集上展现出超越现有最新动作识别技术的优势 作为未来研究方向之一的是解决数据集中可能出现的问题案例 另一个重点方向是优化拟议的TS-LSTM集成网络参数 以便更好地捕获各种时空动态 最后我们还计划将多种数据增强技术应用于所提出的模型中 进一步提升其泛化能力
