Spatio-Temporal Graph Convolutional Networks: A Deep Learning Framework for Traffic Forecasting
研究问题
论文希望达到多层次的交通预测模型,并认为这是城市交通管理与调控的关键基础之一;同时这也是智能交通系统的重要组成部分之一。
背景动机
现有诸多方法(例如线性回归)能够在短时间内实现预期效果。但受交通流的不确定性和复杂性等因素制约,这类方法在长期预测中表现不足。
动力学模型具备中长期预测能力但其应用受限于必须基于合理假设且计算资源消耗较大。
基于统计的方法难以捕捉时空相关性。
深度学习模型通常采用CNN和RNN分别建模时空依赖关系然而CNN仅适用于网格数据如图像不具备适用性而RNN在训练过程中可能导致逐步累积的问题进而影响训练效果且耗时较长(这一解释尚不清晰)
作者提出了一种创新性的模型以捕捉交通流的空间时间和空间相关性,在空间维度上采用了图卷积替代传统的卷积神经网络,在时间维度上则采用卷积替代 recurrent neural networks(RNN),从而实现了对交通流量变化规律的有效建模。
问题定义

为n个路段在时间步长t时的观测向量
预测问题可以定义如下

如下图所示,

可以看做是定义在图

上的信号,图的权重表示为

,在不同时间点,有

,其中

是顶点集,与交通网络中n个监测站的观测结果相对应;

是边集,指示检测站之间的连通性;

则是加权邻接矩阵。

模型框架
- 总体框架
STGCN由多个时空结构模块构成,并且每个时空结构模块均包含一个嵌套结构。其中两个门控序列卷积层通过操作空间图来实现信息传递过程。模型损失函数为

以下从左到右依次是STGCN、时空卷积块、时间门控卷积块

- 空间图卷积
论文应用了切比雪夫近似与一阶近似的图卷积公式,在论文中涉及了数学推导内容,觉得较为困难;然而尽管如此仍感到较为熟悉。


- 时间门控卷积
- 一维因果卷积
替代RNN来处理时间序列问题,在基于前M个时间段的数据基础上推断出下一个时间段的结果。

GLU门控线性单元
GLU其实是一种特殊的激活函数,可以写作

即一个输入依次通过无激活函数的卷积层和带sigmoid激活函数的卷积层进行处理,并将其输出结果经过点乘操作后可有效减少梯度弥散并加快收敛速度

该论文将因果卷积的输出分为两部分,并将这些分量随后嵌入到GLU架构中进行处理和生成最终结果。其中涉及的具体数学表达式如上所示。

- 残差网络架构
便于增加网络深度
- 时空卷积块
其本质是通过时序数据与空间特征的融合来构建时空表征体系,在模型架构设计中将图卷积网络与时间门控卷积网络进行集成,并通过瓶颈机制实现多尺度特征提取与压缩。每层结构均配备归一化模块以防止模型过拟合特性。时序数据首先经过时序卷积处理得到初步特征表示;随后将初步特征经图卷积网络进一步提取空间语义信息;激活后的输出经RELU非线性激活后进入后续的时间维度深度学习过程。

实验
实验基于北京市交通委员会与加利福尼亚交通运输署获取了两个真实世界交通数据集BJER4和PeMSD7
- PeMSD7
预测效果最佳

相较于其他方法而言,本方案能够更加精准地识别趋势模式,并且能够提前预判峰值时段的结束。

- BJER4

评价
该论文提出了一种综合时空维度进行序列预测的方法,在研究过程中感觉涉及了许多未知的技术与概念,在学术圈内也是一些前沿领域的内容。具体包括但不限于因果卷积网络、门控线性单元(Gated Linear Units)等技术,在实际应用中值得进一步探索与实践。
