论文翻译:Two-Stream 3D Convolutional Neural Network for Human Skeleton-Based Action Recognition
摘要:在三维人体动作识别领域中,如何有效地从骨骼序列中提取时空信息仍是一个待解决的关键问题。尽管近年来基于递归神经网络的动作识别方法取得了显著成果,并展现出强大的性能特征;但这些方法存在一个共同局限性即过分重视时间信息的作用这一缺陷。鉴于3D卷积神经网络(3D CNN)能够有效捕捉空间与时间维度上的相关性并能从多维信号中学习特征这一独特优势本文提出了一种 novel的方法据我们所知这是该领域首次将3D CNN应用于骨架动作识别任务。该方法包含三个主要步骤首先将骨骼关节坐标映射至三维空间;其次分别对两个信号流进行时空特征提取;最后通过多时间版本的扩展增强深度特征在全局关系上的捕捉能力。通过在SmartHome数据集和大规模NTU RGB-D数据集上的广泛实验表明我们的方法显著优于现有基于RNN的方法不仅提升了对空间与时间信息互补性的利用更能有效抵抗噪声干扰验证了所提出的模型的有效性
注
该研究主要采用了基于循环神经网络(RNN)结构的动作识别方法。其中,Du等人[10]设计了一种基于端到端层次结构的RNN模型来编码骨骼关节之间的相对运动。人体骨骼被划分为若干与解剖学相关的部分,这些区域分别通过独立的子网络提取各自的局部特征。为了实现对输入序列的有效捕捉,自带有特殊门控机制(LSTM)能够有效地捕获输入序列中的长期依赖关系以及短期动态变化,许多研究倾向于利用这种优势来提升动作识别性能。Shahroudy等人则提出了基于部分内存子单元的新门控机制的部分感知LSTM模型,该模型在性能上优于一些手工设计的独特特征提取器和传统RNN架构。然而,传统的RNN架构往往更注重时间信息的有效捕捉。
基于CNN的方法最初被应用于人体动作识别领域,并已在文献中得到广泛应用
Tran等人[20]提出了一种基于时空特征学习的三维深度卷积方法
特别地,在文献中,“所提出的特性具备四个关键属性:通用性、紧凑性、高效性和简单性”
Cao等人的研究进一步优化了这一技术,并提出了改进型的人体姿态估计方法

图1展示了所提方法的整体流程图。给定一个动作序列作为输入后,经过必要的预处理步骤,将其分别编码为空间体积特征与时间体积特征。随后,我们采用了双流三维卷积神经网络(CNN 3D)来提取相关特征,该模型架构包含4个卷积层、4个最大池化层以及2个全连接层结构。在详细阐述其工作原理的基础上,最后通过元素融合的方式将两流网络进行整合,在此过程中明智地乘以它们各自的类成员概率计算结果
符号JDD在真实数据集上展现出令人鼓舞的效果。通常情况下,在分析三维信号时, 3D卷积神经网络能够有效地识别其间的关联关系。我们主要贡献体现在两个方面:(1)我们最先提出了一种双向补偿机制的三维卷积神经网络模型;该模型对于噪声干扰表现出极强的抗干扰能力。(2)其中一种改进型三维卷积神经网络基于文献[22]的研究成果构建而成,并且其显著减少了与C3D相比所需的参数数量
编码空间与时间信息受不同视角的影响而呈现不同效果,在本研究中我们采用了Liu等人的[16]所提出的空间变换技术作为预处理阶段的关键步骤,以解决由于观察者视角变化而导致的影响。其中每个动作H包含F个局部坐标系,在这些局部坐标系中,每个骨架由M个关节构成。其中第i个局部坐标系中的第j个骨架关节为:
在公式中定义了变量f∈(1, …, F) 和 m∈(1, …, M)。我们采用了NTU RGB+D数据集[17]中的联合配置方案,并将其参数设置为M=25。由于动作序列中的标记点数量有限,在相邻关节之间进行插值运算以补充关节信息。随后将动作序列中的骨骼结构映射至三维坐标空间D中,并将其分解为空间域和时间域的信息编码表示。特别地,在3D卷积神经网络(3D CNN)模型中不仅能够捕捉到时空相关性问题,并且能够有效解决骨架之间的帧同步不一致的问题
在运动区域空间体积中设定一个空间值来代表被编码的空间信息;即:注意到很难分辨两个运动区域相似但时间顺序相反的动作(如"站立"与"坐下"),因此我们采取措施使


改写后的内容

标识时间量中的各个时间值,并且以便区分类别;它的值会受到帧数量的影响;针对我们所讨论的结果,我们采用一个具体的替换方法来实现这一目标。

其中f unction范数表示归一化为[0,1]。相比之下,

对动作n序列的时间信息进行编码。如图所示,在此过程中展示了动作的空间与时间编码的差异。“手挥舞着”这一具体操作被用于比较两者的区别。可以看出,在此过程中随着空间位置的变化逐渐加深了颜色层次感。这表明将空间与时间特征相结合能够显著提升模型性能
两流三维CNN模型 参考文献[22]中提到的相关技术启发了本研究的设计方案。如图1所示,在空间流与时间流之间实现了对称的架构布局。对于单个流而言,在深度方向上采用了四层连续的三维卷积神经网络架构(CNN),每一步均紧跟一层最大池化操作,并在第三、四层设置两个全连接层以完成特征提取任务。具体而言,在各卷积层中使用的滤波器数量依次为3、8、32及64个;而全连接层则分别包含512及256个神经元节点。值得注意的是,在这一设计思路与文献[22]中的方法具有高度相似性,并采用了类似的时空数据增强策略以解决分类任务中的数据不足问题。为了防止模型过拟合并提高泛化能力,在每一对卷积层与最大池化层之间加入一个Dropout层[23]以缓解过拟合问题。此外,在前三个卷积模块之后适当增加了填充操作以维持输入样本的空间维度与输出特征图的空间维度一致。实验结果表明该方法能够有效提升分类性能
此次改进工作的主要成果在于优化了整体模型架构设计。通过对比C3D模型[20]而言,在参数规模上实现了显著缩减的同时,在分类输出层采用softmax激活函数,并采用训练交叉熵损失作为优化目标。进一步地,在网络各层中均采用RELU激活函数以提升非线性表达能力:

对空间流和时间流分别进行训练,只在正向传播阶段进行合并:

图2:三个正交平面作用“挥手”的空间体积(上)和时间体积(下)对比。
在决策过程中,在针对每个网络参数的两个版本WS和WT中分别生成类成员属性概率分布(P(C|x, WS) 和 P(C|x, WT)),这些分布代表了给定动作观察x属于类别C的概率值。通过逐元素相乘的方式结合来自两个神经网络的信息来源,在此过程中实现了更加高效的分类判断。

然后是c的类标签∗可以如下获得:

该时段遥测系统采用多层次卷积滤波器构建三维深度学习架构,在复杂场景下可有效提升特征提取能力。然而该方法会显著增加网络计算负担与模型参数规模。本研究将原始骨架信号转换为空间时序数据流,并基于双分支三维度深度学习网络分别提取主干与次生空间时序特征序列(如图3所示)。具体而言,在时空维度上我们设计了一种多层次分割策略: 首层则涵盖整个骨架信号; 第一层则涵盖从初始帧到[F/2] − th帧的时间片段; 第二层则由(F / 4)−th到(3 F / 4)−th框架组成; 第三层则包括从[F/2] − th到末尾的所有帧段;通过这种多层次分割策略可以有效捕捉不同时间尺度的空间时序特征信息并增强其全局时空关系建模能力
数据集
- NTU RGB+D 数据集: 该数据集包含 56880 个序列(总计 4,00 万帧)中的 60 种动作参与了 40 次实验研究工作, 其中每项实验涉及 40 名研究对象, 并由多台摄像头捕捉动作信息. 这一数据集具有很高的挑战性, 主要源于长序列的时间轴特性以及反向时间序列的动作配对问题, 此外还存在较多噪声严重的骨骼关节运动. 其中一些截图如图 4 所示. 在保证各组间比较公平的前提下, 我们采用了 Shahroudy 等人[17]提出的两项核心评估标准. 在交叉学科评估体系中, 将全部受试者分成若干训练组, 并按照随机分配的方式进行实验设计.

与测试组相比,在每个测试组中都包含20名受试者。对于交叉视角评估(CrossView evaluation),我们基于相机1的所有样本进行测试,并使用相机2和3的样本作为训练数据。
SmartHome Dataset: SmartHome Dataset[16]是我们实验室收集的一个真实场景智能 home 数据集,涵盖六种不同的动作类型: "box"、"high wave"、"horizontal wave"、"curl"、"circle" 和 "hand up". 每位参与者分别进行了五种情境下的六次操作(每只手各三次),总计 1620 个深度序列.在 SmartHome 数据集中,骨关节中包含了大量噪声.
