论文笔记--Disentangling and Unifying Graph Convolutions for Skeleton-Based Action Recognition
Hello, 今天是论文笔记计划的第二天啦。
今日向大家介绍一篇重量级的研究论文。目前这项成果在本领域内处于最前沿水平(SOTA),并且从处理方式上讲,则与此前广泛采用的空间变换图卷积网络(ST-GCN)等改进方案相比,在理论体系上有增添了一些新维度(new perspectives),值得我们深入研究和借鉴。
认真细致的读者参考我的论文笔记模板,在积累了一定数量的内容后探索出一套专为你们设计的最佳学习工具。经过一段时间的学习和积累后,我预计我的笔记侧重点可能会逐渐调整,并且最适合个人需求的学习方式往往能带来最佳效果。
在慢慢写论文的过程中,在实际操作中考虑更换或优化时,《points》往往不是直接取自于常规性的笔记材料,在经过长期阅读和深入思考后提炼总结而成的内容,则会给人一种像是拥有自己独特的《Key Insight》💡库的感觉。展望未来,在时间和经验的积累下
这篇论文属于CVPR 2020的论文。
一、论文题目关键词提取
Disentangling: 拆分或分离,在遇到这个词时我们也会联想到这种技术的作用机制;例如,在PB-GCN中(Priming-Based Graph Convolutional Networks),人体骨骼系统被拆分为五个不同的组成部分进行分析。
Unifying: 统一,在未阅读论文之前的大致感受是将其分解后再重新组合起来的一种感觉。或者采用了一种类似于全局图的概念。
仅以论文题目关键词为依据,在此停留并留下了一些疑问之后
阅读学术论文的过程应包括主动设问并深入探究:通过自我提问明确研究方向,在文献中寻求答案;同时提出合理的假设并进行验证以检验其可行性。举例而言,在阅读Introduction部分时需停下脚步进行深入思考:分析前人研究中的不足之处,并构思适合自己的解决方案;随后将这一方法应用至每一篇精读过的论文中,在实践中不断提升自己的思维广度。
二、研究背景
于2018年提出的ST-GCN方法后
本文还关注到在利用骨架邻接矩阵的高阶多项式进行图卷积的过程中提取关节的多层次结构特征和长时间关系时会遇到偏向的问题 。无向图中循环行走的存在使得边权重趋向于更近而非更远的节点。结果表明, 聚集的行为主要由局部身体部位的相关关节控制, 并且忽视了远离这些关节的部分
在时间处理方面,在借鉴GRGCN论文提出的滑动窗口机制的同时,并提出了自己的机制
三、研究目标 & 内容
目标:
1、针对邻接矩阵高阶多项式中的偏加权问题展开研究与优化。
2、现有的一维卷积模型由于难以直接捕捉时空信息流动而忽略了区域间的时空关联性。
为了达到目标1的目的,在多尺度聚合方面提出了一种创新性方案,在该方案中通过剔除不同邻域之间存在的冗余依赖关系从而缓解了加权偏差问题,并使各特征得以在多尺度环境下得到充分融合与提取。这一更为强大的多尺度算子不仅可以建立关节之间的关联关系而且不受两者之间距离的限制
四、本文贡献
- 开发出了一种去除了不同邻域节点特征间冗余关联性的多尺度融合方案,在实际应用中实现了对人体骨骼全局关联关系的有效捕捉。
- 开发出一种融合时空维度的新模型架构G3D(时空图卷积),这种架构能有效促进跨时空信息流直接进行特征学习。
- 将解耦后的融合模块与现有模型集成后形成了一种新型的强大特征提取器MS-G3D(时空图卷积),这种结构能够覆盖多个空间尺度和时间跨度,并通过多层次的空间-时间融合机制,在性能指标上取得了显著提升。
五、研究方法
分解骨架的邻接矩阵:

基于跳跃步长的方法能够将一个邻接矩阵分解成多个子矩阵,并能有效减少不同邻域节点特征间的冗余关联性以及由高阶多项式带来的偏差权重问题。
按照跳数分解邻接矩阵后,图卷积的公式:

增加了跨时空连接的操作被进行中,在这一阶段我感到自己对这一操作的理解花了相当长的时间。具体来说,在连续窗口时间段内同时存在多个不同跳数对应的矩阵数据,并且需要弄清楚这些矩阵的具体维度和分布情况。

加入窗口后的特征计算:

结合多跳与窗口的特征计算:

整体模型架构图:

可观察到,在MS-TCN架构中也同样采用了多层次设计策略,并扩展了时间上的设计布局。
六、评价指标
本论文探讨了参数量:(但作者巧妙地避开了计算复杂度问题,在本文的研究中涉及的计算复杂度相对较高。

本文的效果也是目前的SOTA啦:

