Advertisement

2019 Action Recognition 顶会论文(CVPR、ICCV)

阅读量:

在暑假期间,为撰写综述报告而进行研究的人员通常会查阅大量文献.其中涉及动作识别领域的研究大约有50篇论文.主要集中在2015至2017年间.近期查阅了更多近期的研究成果,在2018年这一年间共有30篇相关论文发表,而在2019年则有所减少至15篇.其中一部分已经被他人进行了深入解读.基于这段时间的研究积累和观察,重点选择了5篇在RGB-D框架下或者具有独特视角的论文进行深入学习.综述交差后不想再做修改,因此选择在这里记录下来

A Comparative Analysis of Contemporary Kinect-based Action Recognition Systems

本人之前看过几篇综述了,本文吸引我的是基于kinect的点,之前看的论文只有很小一部分基于depth,所以在2019的综述中我也主要读了有关depth的部分。
一篇基于kinect相机的综述,比较了10种算法,用于cross-subject和cross-view的动作识别。
人体动作识别分为两种方法,一种是手工特征,分为特征提取和特征表示两个部分;另一种是深度学习特征。
Depth-based action recognition:一种用时空体积和轮廓信息等全局特征(HON4D、自适应时空金字塔、Xia等提出的滤除噪声的方法);深度学习特征:HDMMs、HPM、多流。
10种方法:
1.HON4D:基于深度信息的全局描述符,该描述符在4D空间坐标、深度和时间范围内捕获人体动作的几何和运动。
2.HOG:分别计算深度、深度导数、关节位置差的直方图,形成时空关节特征。
3.HOPC:将深度图像建模为3D点云,HOPC描述符从3D点云中提取出时空关键点(STK)。对于每个STK,算法进一步将特征向量投影到一个正十二面体的20个顶点的轴上。每个的STK的最HOPC描述符是3个小直方图的拼接。
4.LARP-SO:将 rolling map用于3D action recognition,基于骨架
5.SCK+DCK:基于3D human body joints
6.HPM+TM:使用一个深度CNN架构来训练一个视图不变的人体姿态模型。将Real depth sequences逐帧传递给所学习的模型,以提取高级的视图不变特征。
7.P-LSTM:基于骨骼
8.Clips+CNN+MTLN:Frames+CNN,Clips+CNN+Pooling,Clips+CNN+Concatenation,and Clips+CNN+MTLN。
9.IndRNN
10.ST-GCN:重建时空骨架图
实验结果分析:
1.Single-view 与cross-view对比
将基于深度和骨架的特性结合在一起有助于改进跨视图动作识别,并为跨主题动作识别提供类似的性能。
2.Depth-based features versus skeleton-based features
在cross-subject动作识别中,基于骨架的特征在手工和深度学习特征类别中都优于基于depth的特征。然而,将基于depth的特征添加到基于骨架的特征中,导致了动作识别精度的轻微下降。主要原因是背景杂波和噪声使得基于depth的特征在鲁棒动作识别中的代表性降低。
例外是HOPC算法,它使用基于深度的特性,并且在交叉主题动作识别方面比基于骨架的特性(如HDG-jpd+jmv)表现得更好。HOPC算法与其他基于深度的算法不同,它将深度图像视为一个3D点云。这种方法使得HOPC算法能够在更好地处理视点变化的情况下估计人体局部表面斑块的方向。
3.Handcrafted features versus deep learning features
深度学习在大数据集上表现好,手工特征在小数据集上表现好;
手工特征不能实现迁移;
4.趋势
深度学习表示正在从基本的神经网络(如传统的RNN和LSTM)向适应的和/或依赖于预先训练的网络的专用网络(如,HPM+AP, HPM+TM, Clips+CNN+MTLN)。

A Large-scale Varying-view RGB-D Action Dataset for Arbitrary-view Human Action Recognition

  • 创建了一个全方位视角的RGB-D大规模数据集。该数据集涵盖8个不同视点,并提供360度无死角的视角。共有118名参与者完成了40个不同动作类别中的全部动作。其中大部分动作是针对健身训练的。总共收集了25,600个高质量视频样本。
  • 开发出一种基于视图引导骨架卷积神经网络(VS-CNN)的方法来解决任意视图的动作识别问题。

Video Action Analysis in Raw Video Sequences Using a Composite Self-Attention Two-Stream Architecture

为了应对零样本动作识别问题,在没有任何正面实例的情况下实现新动作类别分类任务的基础上提出了一种创新性的解决方案:构建了一个集成预训练模型的复合两流架构体系。该架构体系由两个主要组件构成:一个是用于分类的任务模块;另一个是整合特征提取能力的复合特征提取模块;这两个核心模块均采用了图网络模型作为基础架构设计;通过这种方式实现了对视频数据特征信息的有效提取与推理运算能力的整体提升;在这一复合特征提取模块中特别引入了三通道自注意力机制的设计:通过对视频每一帧图像进行加权融合处理并赋予不同权重层次的关注度;其中每一通道自注意力机制都会聚焦于视频的不同特定方面;各通道输出的结果则分别对应于不同维度的空间与时间信息;通过这种多维度的关注权重矩阵构建方式实现了对关键帧图像信息的高度浓缩与表征;这种多通道自注意力机制能够从多个角度对关键帧图像的质量与重要性进行综合评价;而这些权重向量共同构成了一个注意力矩阵;这个矩阵不仅能够有效区分出具有强类别相关性的关键帧图像;还能够显著提升整体特征提取精度与推理效率;最终所设计的该系统架构能够在零样本条件下实现对新动作的有效识别;并且在处理未剪裁原始视频数据时仍能保持较高的识别性能。

在这里插入图片描述

3.2 复合特征分支模型
前文所述的多通道自注意力机制被用来处理修剪视频中的动作识别问题。当处理未裁剪视频时,在其前后添加几个背景帧会对动作识别性能造成显著影响。从而构建了一个复合特征分支模型(如图所示)

在这里插入图片描述

前向网络用于处理非修剪视频,动作分类部分通过定义损失函数loss2进行建模。后向网络则专注于剪裁后的视频处理,并通过损失函数loss3进行优化。整个系统的目标损失函数由三部分组成:loss = loss2 + loss3 + loss4

本节介绍了一种复合特征分支模型的构建方法。具体而言,在3.2节所述的多通道自注意力复合模型基础上进行预训练后,在文献[5]中将双流图卷积网络中的注意力模块替换成多通道自注意力结构以获得所需的双流特征分支架构。该模型能够实现零距离动作识别技术

全部评论 (0)

还没有任何评论哟~