Advertisement

论文笔记《Traffic Flow Forecasting with Spatial-Temporal Graph Diffusion Network》

阅读量:

文章

文章

文章

现存问题

  • 大部分研究集中关注附近的地理区域及其空间关联性,并未考虑全球范围内的地理背景信息
  • 大部分研究未能有效编码具有时空动态特性和多层次分辨率的流量转移模式

本文概览

开发并命名为 Spatial-Temporal Graph Diffusion Network, ST-GDN 的交通流量预测框架被成功构建完成,并且该模型具有特性:

  • 该模型能够掌握区域级别的空间相关性
  • 该网络能够从全局视角提取或反映空间语义信息
  • 多尺度注意力机制能够识别多个时间层次的空间动态特征

本文方法

Problem Definition

  • 本研究中采用将研究区域划分为I * J个互不相交的空间单元来构建交通流量模型,其中r_{i,j}代表每个子区域的空间单元。
    • 其中\boldsymbol{X} = \{x_{i,j}^t\} \in \mathbb{R}^{I \times J \times T}表示由所有子区域的时间序列流量构成的空间流动数据集。
      • 其中x_{i,j}^t为时间步t时子区域r_{i,j}内的交通流量。
      • \boldsymbol{X}^{\alpha}分别代表该区域内所有路段的入流特征向量,而\boldsymbol{X}^{\beta}则代表对应的出流特征向量。
    • 这种基于三维张量的数据结构能够有效捕捉空间、时间和流量三重关系,并支持后续建模与分析需求。

Methodology

在这里插入图片描述

Temporal Hierarchy Modeling

该部分内容与 ST-ResNet 的处理方式相似,在时间轴划分方面也采用了相同的方法。具体而言,在时间轴划分方面采用了小时、天、周三个时间段进行划分。其中 T_p 被定义为序列数据的时间分辨率,在这种情况下 \mathbf{x}_{i, j}^{T_{p}} 代表的是当前时间分辨率下的流量序列。在建模过程中采用的是 自注意力机制 进行编码运算,并进行了相应的补充(参考邱锡鹏,《神经网络与深度学习》,机械工业出版社,《深度学习基础》,https://nndl.github.io/, 2020.):

给定输入序列\boldsymbol{X}为由输入向量\boldsymbol{x}_1,\dots,\boldsymbol{x}_N组成,
其中每个\boldsymbol{x}_i\in\mathbb{R}^{D_x}
输出序列\boldsymbol{H}由输出向量\boldsymbol{h}_1,\dots,\boldsymbol{h}_N构成,
其中每个\boldsymbol{h}_i\in\mathbb{R}^{D_v}

对于每一个输入样本x_i而言, 我们会分别对其进行三种不同的线性变换以生成对应的查询矩阵\boldsymbol Q, 关键字矩阵\boldsymbol K以及值矩阵\boldsymbol V. 具体来说, 在数学表达式中:

\begin{cases} \boldsymbol Q =\boldsymbol W_q\cdot\boldsymbol X &\in\dboldmathbb R^{D_k\times N}; \\ \boldsymbol K =\boldsymbol W_k\cdot\boldsymbol X &\in\dboldmathbb R^{D_k\times N}; \\ \boldsymbol V =\boldsymbol W_v\cdot\boldsymbol X &\in\dboldmathbb R^{D_v\times N}. \end{cases}

需要注意的是, 这里的查询矩阵与关键字矩阵均具有相同的维度特性, 即满足d_k=d_q.

  • 利用scaled dot-product attention 作为注意力机制中的打分函数,在其输出向量通常被简洁表示为:\boldsymbol{H}=\boldsymbol{V} \operatorname{softmax}\left(\frac{\boldsymbol{K}^{\top} \boldsymbol{Q}}{\sqrt{D_{k}}}\right)(其中,在本文中使用符号表示为Y^p)。

Traffic Dependency Learning with Global Context

该部分内容旨在捕获全局依赖关系。为此,我们定义了一个用于表示区域图的结构为 G=(R, E) 的模型框架,在此框架中,
其中,

  • 区域集合由变量 R

  • 各区域内节点间的配对相关性由变量 E
    所表征。建模方式(注脚记号):
    这部分与 Graph Attention Network(GAT)有相似之处。

    • 使用多头注意力 h \in[1, \ldots, H]
    • G 融合方式(代表不同区域之间的特征消息传递机制) m_{(i, j) \leftarrow\left(i^{\prime}, j^{\prime}\right)}^{p}=\|_{h=1}^{H} \omega_{(i, j) ;\left(i^{\prime}, j^{\prime}\right)}^{h} \cdot \mathbf{Y}^{p} \cdot \mathbf{W}^{p},其中 Y^p 是刚刚自注意力求出来的隐藏层表示,W^p 是参数,\omega_{(i, j) ;\left(i^{\prime}, j^{\prime}\right)}^{h}=\frac{\exp \left(L R\left(\boldsymbol{\alpha}^{T}\left[\widetilde{\mathbf{y}}_{i, j}^{p} \| \widetilde{\mathbf{y}}_{i^{\prime}, j^{\prime}}^{p}\right]\right)\right)}{\sum_{\left(i^{\prime}, j^{\prime}\right) \in \mathcal{N}(i, j)} \exp \left(L R\left(\boldsymbol{\alpha}^{T}\left[\widetilde{\mathbf{y}}_{i, j}^{p} \| \widetilde{\mathbf{y}}_{i^{\prime}, j^{\prime}}^{p}\right]\right)\right)} 用于表示潜在 the underlying attentive relevance (并不知道咋翻译…),其中 \widetilde{\mathbf{y}}_{i^{\prime}, j^{\prime}}^{p}=\mathbf{y}_{i^{\prime}, j^{\prime}}^{p} \cdot \mathbf{W}^{p}
    • the aggregated feature embedding of 区域 r_{i,j} 表示为 \mathbf{z}_{i, j}^{p}=f\left(\sum_{r_{i^{\prime}, j^{\prime} }\in \mathcal{N}_{i, j}} m_{(i, j) \leftarrow\left(i^{\prime}, j^{\prime}\right)}^{p}\right)
    • 高阶信息传递(从第 l 层传到第 l+1 层)\mathbf{z}_{i, j}^{p,(l+1)} \leftarrow \underset{i \in N_{u}(j) ; j^{\prime} \in N_{v}(j)}{\text { Aggregate }}\left(\right. Propagate \left.\left(\mathbf{z}_{i, j}^{p,(l)}, G\right)\right)
    • 全局表征 \mathbf{z}_{i, j}^{p}=\mathbf{z}_{i, j}^{p,(l)} \oplus \ldots \oplus \mathbf{z}_{i, j}^{p,(L)}

Region-wise Relation Learning with Graph Diffusion Paradigm

该部分基于图传播网络对区域之间的空间关系进行建模。具体而言,则有如下公式推导:f\left(\mathbf{z}_{i, j}^{p}\right)_{\Theta}=∑_{k=0}{K−1}[θ{k,1}(D_o^{-1}A)^k + θ{k,2}(D_i^{-1}A^T)^k] z{i,j}_p

  • 该变量代表扩散阶数,在计算过程中与所有K阶邻居建立了关联。
  • 参数为\theta_{k,1},\theta_{k,2}\in\mathbb{R}^{K\times2}
  • 权重邻接矩阵;其中矩阵D_o等于A与单位矩阵相乘的结果。

diffusion convolutional layer 的输出结果由以下公式给出:
\mathbf{\Lambda}_{q}^{p}=\operatorname{Leaky}\operatorname{ReLU}\left(\sum_{d^{\prime}=1}^{d}{f\left(\mathbf{Z}_{d^{\prime}}^{p}\right)}_{{\Theta}_{{q,d^{\prime}}}}\right)
通过融合多粒度交通模式进行表征的方式包括:

在这里插入图片描述

Evaluation

思考

看这篇文章时首先被复杂模型图震撼了,在一边观看另一边则不断思考为何如此设计各个模块。为了方便后续分析打算先简单梳理一下思路。

  • Temporal Hierarchy Modeling 部分引入了一个自注意力机制(self-attention),其主要目标在于整合周度、日度以及小时级的时间序列数据到同一空间表示中。
  • Traffic Dependency Learning with Global Context 部分采用了多头注意力机制(multi-head attention),旨在捕获全局依赖关系(global dependencies)。
  • 然而,在此处的每个关注子网络(each attention subnetwork)仅基于当前时间序列数据进行建模(modeling),因此从整体性角度来看确实存在局限性(limitation)。
  • 在结论部分中提到该方法主要关注局部时空上下文信息(local spatial contextual information),这一表述确实令人感到困惑(confusing)……$^+"&@!&&%
  • Region-wise Relation Learning with Graph Diffusion Paradigm 部分采用了图扩散卷积(graph diffusion paradigm),这种操作实际上是基于先前的时间序列编码结果继续提取特征表示(feature representations)。这种方法确实值得商榷(worthy of discussion)……

总体而言,这篇文章难以理解。总体而言

全部评论 (0)

还没有任何评论哟~