STIGCN:Spatio-Temporal Inception Graph Convolutional Networks for Skeleton-Based Action Recognition
这篇论文提出了一种名为时空初始图卷积网络(STIGCN)的方法,用于基于骨骼的动作识别。该方法通过重新发明GCN中的分割变换合并策略,结合空间和时间路径,成功克服了传统GCN在提取和合成不同尺度和变换信息上的局限性。实验表明,STIGCN在NTU RGB+D和Kinetic数据集上均优于现有最先进的方法(SOTA),并通过增加变换集数量进一步提高了准确性。该方法通过端到端训练,无需额外骨骼数据或集合独立模型,展示了在动作识别任务中的有效性。
Spatio-Temporal Inception Graph Convolutional Networks for Skeleton-Based Action Recognition
时空初始图卷积网络用于基于骨骼的动作识别
CVPR2020
邻接矩阵的拓扑结构在建模输入骨骼的相关性方面具有重要意义。先前的研究主要集中在图拓扑的设计和学习上。然而,一旦确定了拓扑结构,网络的每一层通常仅包含一个单比例特征和一个转换层。研究表明,多尺度信息和多组转换在卷积神经网络(CNN)中表现出色,但目前在图卷积网络(GCN)中尚未得到深入研究。这一研究空白的出现,主要是由于图形数据的骨架结构与常规图像/视频数据之间存在显著差异,使得将相关见解有效整合到GCN中面临诸多挑战。为此,本文提出了一种创新的GCN分割变换合并策略,以实现骨架序列的处理。该方法为基于骨架的动作识别设计了一种简洁而高度模块化的图形卷积网络架构。网络架构通过重复一个基本模块实现构建,该模块整合了来自空间和时间路径的多粒度信息,从而实现了对骨架序列的高效处理。
深度神经决策森林是一种能够学习分叉的图像-模式中多分叉网络。
GoogleNet采用了Inception组件,在构建块的不同分支中引入多尺度处理,多尺度特征通过多尺度特征的整合形成。
ResNet采用残差学习架构,在其中,输入与卷积操作后的输出特征之间的标记映射通过元素级相加进行融合。
ResNeXt设计一个构建模块,聚合一组变换。
DenseNet将所有前一层的特征映射传递给当前层,并将其作为后续所有层的输入。转换层旨在整合所有层的特征映射,形成一个密集的特征空间。研究者Zhaofan Qiu, Ting Yao, and Tao Mei在2017年的 ICCV论文中提出了一种基于伪三维残差网络的模型,用于学习空间域和时间连接的特征表示。在该模型中,邻接特征映射被分解为3×3×3的卷积、空间域1×3×3的卷积滤波器以及时间连接的3×1×1连接。
LocalCNN:该方法以本地操作作为基因构建块,在任何层中合成全局和局部信息。在本地路径上,Jiwei Yang等人的研究提出了基于局部卷积神经网络的行人再识别方法。该采样模块从输入中提取本地区域,并通过设计特征提取模块和特征融合模块来实现特征的转换与聚合。
邻接图的拓扑结构主要依赖于与建模输入骨架相关的关键要素。SOTA研究中,主要采用NAS-GCN、2s-AGCN和稀疏图形回归方法,这些方法的重点在于图形拓扑的设计与学习。然而,尽管图形结构已经形成,网络的每一层仅限于单一尺度和单一变换,这在提取和合成不同尺度和转换信息方面存在一定的限制。
该研究在GCN框架中深入分析了split-transform-merge策略的有效性。该研究将传统的split-transform-merge策略成功引入GCN框架,详细阐述了其在多尺度空间图卷积模块和运动图卷积模块中的应用,最终提出了一种基于骨架的动作识别的高效图卷积骨干架构。
GCN被广泛应用于处理不规则数据,其关键挑战在于定义适用于图形的卷积操作,这一困难主要源于数据的无序特性。基于空间透视或光谱观点构建GCN原理,空间透视方法直接在顶点及其邻居上执行卷积操作,随后通过手动设计的规则对输出进行归一化处理。光谱GCN通过图拉普拉斯矩阵将数据域转换至频域,随后在频域上施加滤波器。Chebyshev扩展用于近似图傅里叶变换,而图卷积则通过Chebyshev转换在骨架数据上进行加权求和,从而实现良好的近似。
backbone CNN的变换拆分与合并策略被成功结合至GCN架构中,并在此框架下重新构建了分割变换与合并策略,以有效处理每一层中的时空骨架序列。对于每一层的输入信号,我们将其划分为三个独立的路径:分别用于空间特征提取的空间路径,用于连续特征建模的时间路径,以及用于优化输入特征重用的剩余路径。

空间路径划分为四个分支,采用1阶到4阶邻接采样生成具有1x到4x跃点连接的四幅图变换。时间路径由两组转换组成,包括跨连续帧的相同关节的位置特征和运动特征的图卷积。关节的运动特征首次被应用于基于骨骼的动作识别。在融合阶段,首先进行空间路径和时间路径输出的级联处理,并通过1×1卷积进行融合。随后,对三个路径的特征进行汇总。整个模块与CNN中的起始模块功能相似,因此命名为时空起始。
时空初始图卷积网络(STIGCN):仅需原始骨架数据即可实现,超越了现有最新方法在多尺度和转换信息处理上的局限性。
通过进一步优化GCN中的分割转换合并策略,成功处理骨架序列的转换,弥补了CNN和GCN在卷积运算上的不足。
与仅创建更宽的GCN相比,增加变换集的数量是提升模型性能的更为有效的途径。该研究希望为基于GCN主干的迭代提供理论支持,从而实现对时空序列的更深入分析。
spatio-temporal inception block:
图Laplacian L=I_n-D^{-1/2}AD^{-1/2},其中D_{ij}=\sum_jA_{ij},用于傅里叶变换。输出特征F_{out}通过图过滤器g_\theta(L)作用于输入特征F_{in},即F_{out}=Ug_\theta(\Lambda)U^T F_{in},其中g_\theta是图过滤器,U是傅里叶偏置,L=U\Lambda U^T,\Lambda是L对应的特征值。过滤器g_\theta可以用Rth顺序切比雪夫多项式近似表示为F_{out}=\sum_{r=0}^R\theta'_rT_r(\hat L)F_{in},其中T_r(\hat L)=2\hat LT_{r-1}(\hat L)-T_{r-2}(\hat L),T_0=1,T_1=\hat L,\hat L=2L/\lambda_{max}-I_n。通常,过滤后的图L可被近似为切比雪夫多项式转换的线性组合,这使得空间图卷积的计算更加高效。
Spatial Inception
the spatial Inception模块, the temporal Inception模块, and the residual path
邻接采样
源自图表卷积的光谱制定提供了灵感,该方法将特征采样模块重新构建为骨架表示间的矩阵乘法操作,并定义为基于切比雪夫多项式的图形变换。
切比雪夫多项式图变换之间的矩阵乘法运算:
T_0=I即表示恒等转换,与残差连接具有相同的特性。0阶引入了残差路径,将层依赖偏差和数据依赖偏差施加于变换矩阵,除了自适应偏差外,其余参数保持不变。
spatial_inception:四个分支分别对应四个四阶图变换T_1=\hat L,T_2=2{\hat L}^2-I,T_3=4{\hat L}^3-3{\hat L},T_4=8{\hat L}^4-8{\hat L}^2+I
卷积模块
图卷积模块用于提取每个比例尺的图特征,包含1×1卷积层、BN、relu。
为了提高计算效率,将输出特征图的数量设置为空间路径总宽度的1/4。
融合模块:
引入特征融合模块,特征融合模块形成连接层,后面1×1卷积、BN、relu。
temporal inception:两个分支网络,一个分支直接将连续帧中的相同关节特征作为位置特征输入,另一个分支则将输入馈入运动采样模块,以提取运动特征。这是关节运动特征首次应用于基于骨骼的动作识别。
- 运动采样:构建运动采样模块以建模二阶空间信息。矢量计算:m_t=v_{t+1}-v_t=\{(x_1^{(t+1)}-x_1^{(t)},y_1^{(t+1)}-y_1^{(t)},z_1^{(t+1)}-z_1^{(t)}),···,(x_n^{(t+1)}-x_n^{(t)},y_n^{(t+1)}-y_n^{(t)},z_n^{(t+1)}-z_n^{(t)})\}。运动信息也可以被视为骨架序列的光流,其中骨架数据的关节与RGB视频中观察到的对象具有相似性,光流被计算为对象在连续帧之间的相对运动。
- 卷积和融合:特征提取模块被构建为从帧序列和运动序列中提取特征。与SI中的卷积不同,本方法采用3×1内核,其中内核大小3对应时间跨度,用于在输入序列的邻接特征映射中建立时间连接。特征融合模块连接两个时间分支的输出,并通过1×1卷积、BN层和ReLU激活进行特征融合。
ST融合:最后合并阶段,spatial、temporal、residual path输出求和。
网络结构:
STIGCN模型包含四个主要阶段,具体由数量分别为1、3、3和3的四个模块组成。各模块的输出通道数量依次为64、64、64、64、128、128、128、256、256、256。输入数据经过BN层进行归一化处理,以提升模型的稳定性。在完成前三个主要阶段后,采用最大池化操作构建时间层次结构。最后一步,提取的特征通过全局平均池化(GAP)操作进行融合,将不同样本的特征映射到统一的维度空间中。在Dropout层之后,应用Softmax函数生成最终的预测结果。


实验:
NTU RGB+D:
batch size:64
weight decay:5e-4
初始学习率:0.1
学习率在第30和第40epoch除以10
训练过程在50epoch结束
kinetic:
batch size128
60epoch
学习率0.1,45和50epoch除以10
weight decay:1.5e-4
在方法实现过程中,2S-AGCN和NAS-GCN分别基于联合数据和骨骼数据构建了两个独立的模型架构。随后,在测试阶段,系统通过整合这两个模型的输出结果来完成最终任务。STIGCN采用了端到端的联合训练策略,在不依赖额外骨骼数据的情况下,其性能表现优于前两种方法。

该研究提出了一种简单的图表卷积骨干架构,命名为时空变换图卷积网络,旨在用于基于骨架的动作识别。该架构成功克服了现有方法在提取和合成不同层次路径、不同尺度以及不同变换信息方面的局限性。研究表明,增加变换集合的数量比简单构建更宽广的图卷积网络在准确度方面更为有效。这种见解有望推动图卷积骨干网络的迭代优化,以实现对时空序列数据的更深入分析。
