Advertisement

[2021] Spatio-Temporal Graph Contrastive Learning

阅读量:

本研究聚焦于时空图(STG)预测中的对比学习挑战。现有图对比学习方法在时空图上的应用存在三个关键问题:第一,在仅依赖预训练表征进行预测时效果有限;第二,在缺乏有效数据增强的情况下难以捕捉STG的独特特性;第三,在处理语义相似性时存在不足。针对这些问题,本文提出了一种名为时空图对比学习(STGCL)的新框架。该框架通过四类数据增强方法干扰输入并设计过滤策略筛选负样本,同时将对比损失与预测损失相结合以提升模型性能。实验表明,STGCL显著提升了模型对长期预测任务的表现能力。

21-Spatio-Temporal Graph Contrastive Learning

郑宇、梁玉轩

1 摘要

时空图(STG)预测所采用的深度学习模型被视为现代工具。尽管它们表现出色,在获取更优性能方面,它们依赖于大规模的数据集,并容易受到噪声干扰。为了缓解这些局限性,则可借鉴广泛使用的数据增强技术和对比学习方法作为突破口。然而,在现有技术中仍面临三个关键挑战:现有的基于图的对比学习方法面临三个关键挑战,在现有技术中尚无法直接适用于时空图(STG)预测任务。

经验表明,在现有的对比学习方法基础上提取预训练表征难以有效提升预测性能。
实证研究显示,在对抗噪声的方法下针对STG数据的研究相对有限。
然而,在样本语义相似性这一关键问题上仍存在不足。
为此,本文提出了一种名为"时空图对比学习框架"(STGCL)的新方法来解决这些问题。
具体而言,在传统的范式下我们创新性地将"预测损失"与"辅助对比损失"相结合来提升性能。
我们详细阐述了四种新型的数据增强技术,并从图结构、时序特性及频域特征引入干扰。
此外,我们还设计了一种基于规则的策略来优化经典的对比损失函数。
这种优化策略能够有效抑制语义上最相似的负样本干扰。
为了全面评估该方法的有效性与普适性,
我们进行了系统性的实验验证,
最终结果表明,
STGCL能够显著提升现有深度模型的表现,
并可作为其直接补充模块使用。

2 介绍

构建智能城市的基础在于大量布置传感器以感知环境状况。这种分散式的传感器系统所产生的时间段数据常被表示为带有时空信息的时空图(STG). 在分析这些数据时,“预测未来趋势”成为一个关键任务, 即通过历史数据推断未来走向。“基于时间序列建模”的最新技术主要包括卷积神经网络(CNN)和循环神经网络(RNN), 它们依据处理时间序列的能力不同而被选用。“为了捕捉空间相关性特征”, 在现有技术中图神经网络(GNN)表现出较高的效率与适用性。

近年来,在图领域研究中出现了一系列创新性对比学习方法,并在无监督学习场景下展现出良好的性能表现。这些方法的核心理念在于通过最大化正类样本(具有相同语义信息)之间表征的一致性提升表示质量的同时,并尽量减少负类样本(不相关语义信息)之间表征的一致性以避免误判。在数据增强技术的应用方面,则是通过构建图数据增强机制生成同一实体的不同视图(即锚),从而获得正类样本特征;接着将这些锚与其他不同实体的视图进行对比训练以形成负类样本特征群集。这样一来就能获得具有广泛适用性和强鲁棒性的表征模型

在本研究中,我们的目标是提升STG预测能力并补充一个辅助性的对比学习子任务。这一目标存在两个主要原因:其一,在该领域公开可用的数据量普遍较小,这限制了训练数据样本的数量;其二,传感器读数往往不够准确,有时会因诸如信号中断(如Yi等人2016)等意外因素导致信息失真。为了提高模型性能,我们采用数据增强技术和补充对比损失的方法来训练模型,从而为模型提供了额外的监督信号,并使其能够学习出对干扰不敏感的高质量表示。然而,现有的图对比学习方法(如GraphCL)仍面临两个主要挑战:第一,在实际场景中难以获得节点级别的标注信息;第二,不同传感器条件下表现不一致。这些限制使得现有方法无法直接适用于STG预测任务。

  • 两阶段训练。根据图表示学习中的典型两阶段训练模式,在第一步中使用对比学习目标对时空编码器进行训练;第二步则采用未经微调的解码器对编码器进行线性评估或微调训练以预测未来。然而研究发现,在图表示学习方法中表现最佳的这类方法往往不如纯监督学习方法高效。实验结果表明,在从对比学习获得的预训练表征中看不出显著优势作用于预测任务;这与将节点/图分类作为下游任务的情况不同。
  • 在时空图领域关于数据增强效果的研究尚显不足。数据增强在对比学习中扮演着重要角色:通过增强技术模型可更有效地学习不同类型及不同扰动水平下的稳定表征特性。但目前针对STG数据的数据增强研究仍显不足:现有方法主要基于STG数据自身的固有属性(尤其是时间维度上的邻近性和周期性)尚未得到充分利用。
  • 在图对比方法中存在未能充分考虑样本间语义相似性的缺陷:在同一batch内其他样本被简单视为该样本的负样本实例这一做法可能不够合理;特别是在STG预测场景下:如时间维度上相邻且具有周期性的特征(如某周一早上6点至7点与周二同一时段具有高度相似度)如图4所示:周一早上的某个时间段与周二同一时间段呈现高度相似度即体现出了周期特性这一现象表明在这种情况下不宜将两个语义高度相似的样本视为独立分离的对象其表示应予以保留而非分别处理因此需要一种能够有效识别出真正意义上的负样本实例的方法。

针对这一难题,在深入分析现有技术局限性后,本研究构建了一种新型时空图对比学习框架(命名为STGCL)。该方法主要实现了三项创新性突破:第一,在数据表示层面突破了传统图神经网络的局限性;第二,在对比机制设计上形成了更具区分度的特征表征方式;第三,在优化策略上形成了更具竞争力的学习框架。

首先,在模型性能提升方面我们采用了原始预测损失与对比损失叠加的方法 而非仅仅依靠两个独立阶段。
其次 为了生成正例样本 我们开发了四种来自图结构 时域以及频域三个维度的数据干扰手段。
再次 在处理负例样本时 我们设计了一种基于规则的方法 该方法考虑了STG中的时间依赖特性(包括接近性和周期性)从而筛选出最难以区分的负例样本 即那些语义高度相似的数据点。
在计算对比损失时我们排除了这些高度相似的数据点 这一改进有助于提升模型的整体性能。
此外 我们提出了一个名为STGCL的新框架 将对比学习与STG预测相结合 从而实现了准确性和鲁棒性的双重优化。
该框架能够轻松地整合到现有时空模型中作为扩展模块。
最后 我们通过实验验证发现 STGCL在多流量类型数据集上表现优异 并且在长期预测任务中展现出显著的优势 超出了预期效果。

3 前言

3.1 时空图预测

3.2 图对比学习

图对比表示学习的主要目标是设计一个GNN编码网络(Graph Neural Network),该网络能够从输入数据中提取出有用的信息并形成有效的图特征表达(graph feature representations)。在一个典型的GNN对比学习框架中:
首先,在输入数据的基础上,
采用一种数据增强策略生成两个高度相关的视角(views),这两个视角是从不同角度对原始输入进行表征。
随后,
将这两个视角分别通过同一个GNN编码网络以及一个读取函数进行传播,
从而得到两组高度相关的高级特征向量。
为了进一步提升模型性能,
引入了一个被称为"投影头"(projection head)的非线性变换模块,
它能够将原始的空间映射到另一个潜在的空间中,
并在该潜在空间中计算两组特征向量之间的余弦相似性(cosine similarity)。
在训练过程中,
通过上述机制对一批大小为M的样本集合进行采样处理,
最终会生成2M个表征向量。
其中,
zni和znj分别代表同一个样本中的两个不同视角,
sim(zni, znj)则衡量这两个视角之间的相似程度。
值得注意的是,在现有的理论框架下(GraphCL)应用了一种变体形式的信息NCE损失函数作为对比损失:
L = −∑{k=1}^K log σ(sim(z_i^k, z_j^k)/τ) + log ∑{i≠j} σ(sim(z_i^k, z_j^l)/τ)
其中σ(·)代表sigmoid函数,
τ为温度超参数。

该损失函数\mathcal{L}_n被定义为取负对数:

\mathcal{L}_n = -\log\left( \frac{\exp(\text{sim}(Z_{ni}, Z_{nj}) / \tau)}{\sum\limits^M_{n'=1, n' \neq n} \exp(\text{sim}(Z_{ni}, Z_{n'j}) / \tau)} } \right)

其中\tau被定义为温度参数。

为了将预训练模型应用于下游任务,例如图分类,我们采用了交叉熵损失函数来训练线性分类器.其中一些编码器可能会被固定(即在线性评估模式下)或可调整(即经过微调后).当进行推理时丢弃投影头.

4 方法

4.1 概述

该时空图预测任务的输入由两个部分构成:首先包含图结构信息以及图信号特征。研究者主要采用对比学习方法提取样本数据的特征表示,并在此基础上设计了一种基于自监督的学习框架。具体而言,在模型训练过程中需要完成两个关键步骤:第一部分工作流程是将原始数据先经过ST-encoder进行编码操作后传递至ST-decoder进行预测;第二部分则是在生成阶段中使用ST-encoder提取正样本的初始特征表示;随后利用映射层将这些特征映射至对应的对比空间中形成对比损失函数作为模型优化的目标。

在本文中, 我们提出了一种新的框架STGCL, 通过对比学习来提升STG预测的效果, 并充分挖掘了STG数据的独特优势. 我们的目的是为了确保编码器提取出的时空摘要在面对扰动时保持稳定, 并能够有效地区分不同样本的空间-temporal模式. 这种设计有助于提高模型的整体性能并增强其鲁棒性. STGCL的具体流程如图所示

在这里插入图片描述

在本文中,采用时空图作为数据增强的基础,并将其表示为\mathcal{G}=[X_{(t-S),t},G_{static}]。其中通过该方法生成的正样本标记为\mathcal{G}'

然后,在经过一个时空编码器的作用后,“原始输入”与“增强输入”会被高维特征H所编码映射。其中,H∈RN×D,D代表隐藏维度的大小。由于在这一过程中,数据中的特征知识已经被编码为高维特征表示的形式,因而去除了时间维度的影响。随后,这些中间表示会被分配到以下两个分支中进行进一步处理。

  1. 预测分支[预测任务]:通过时空解码器提供表示H来预测未来的步骤。利用解码器ˆYt:(t+T)的预测,用真实值计算预测损失。
  2. 对比分支[辅助任务]:以H和H0同时为输入来进行辅助对比任务。具体来说,我们利用一个’求和函数’作为读出函数来获得输入数据的时空摘要s,s0∈RD。我们进一步通过一个投影头将摘要’映射到潜在空间’z,z0∈RD。所应用的投影头有两层线性层,其中第一层之后是批归一化和ReLU。最后,利用对比损失来最大限度地提高z和z0(正例样本)之间的相似性,并使z和其他样本的增广视图(负例样本)之间的相似性最小化。在这里,我们建议通过负滤波操作来避免在语义上最相似的样本之间形成负例样本。
复制代码
    G-->ST-encoder---->H-->ST-decoder-->predict-->loss
||
|---|

    G'|-->ST-encoder-->H'-->{sum()}-->S,S'-->{Linear()-->BatchNorm()-->ReLU()-->Linear()}-->Z,Z'
    			-->contrastive loss=max{sim{Z,Z'},min{sim{Z,K}}

4.2 数据增强

S长度的时空序列,加上静态图结构,怎么进行数据增强?

数据增强可被视为对比性学习框架中的关键组成部分。它通过生成语义上相似的数据对来提升模型性能,并显著影响学习到的表示的质量(Chen等。2020)。在图领域已提出多种增强方法,如基于边缘扰动的方法和子图采样的技术。然而STG并非专为传统图设计,在此研究中我们开发了四种类型的数据增强策略。这些策略通过干扰数据以图结构、时域和频域三个方面进行干扰以提高模型鲁棒性论文详细阐述了每种方法的具体实现过程。

4.2.1 Edge masking

随机删除adj的边

边缘扰动建议在无权图中动态调整边的比例作为扰动幅度。然而,在STG预测中使用的加权邻接矩阵面临挑战:难以为新增的边设定合适的权重系数。为此我们对删除操作进行了优化调整:将原始邻接关系与增强后的关系进行对比学习以提升模型鲁棒性。研究发现:通过共享增强矩阵能够显著提高训练效率并保持良好的收敛效果(Wu等人, 2019)。

4.2.2 Input masking

随机删除节点信息

在回顾相关研究时发现,在STG数据集中经常会出现缺失值的问题。为了解决这一问题,在具体实现时,则通过屏蔽原始输入特征矩阵中的某些元素来模仿这一过程。增强特征矩阵P(t−S):t的每个条目由以下生成:

4.2.3 Temporal shifting

STG数据来自自然,并随时间不断演化。然而,传感器只能以离散的方式记录它们,例如,每次读数5分钟。在此基础上,我们沿着时间轴移动数据,以利用两个连续时间步长之间的中间状态(见图3)。我们通过在连续的样本之间进行线性插值来实现这一想法。
其中α在分布U(rts、1)内生成,每个时代和rts都是可调的。该方法具有样本特异性,这意味着不同的样品具有其独特的α。同时,我们的操作可以与混合增强联系起来(Zhang等。2017)。主要的区别是,我们在两个连续的时间步长之间进行加权平均,以确保插值精度。

4.2.4 Input smoothing

为了减少STG中数据噪声的影响,在该方法中我们采用了一种新的频率调整策略来平滑输入信号(见图3)。具体而言,在可访问的历史与未来值之间建立联系后,默认时间序列长度被扩展为L=S+T,并获得X(t−S): (t+T)∈RL×N的空间布局。随后我们利用离散余弦变换(DCT)将每个节点的时间序列转换至频域空间,并保留低频Eis项以确保关键信息不失真。随后我们对高频L−Eis项进行了以下多步调整:首先生成一个满足M∼U(ris,1)分布的随机矩阵M∈R^(L−Eis)×N;接着利用归一化邻接矩阵˜A对其进行二次平滑处理以降低高频噪声;这种两步平滑操作基于直觉理解相邻传感器应具有相似量纲特性;当实际场景中无法获得邻接矩阵时我们可以跳过此平滑步骤;最后我们对处理后的高频数据项乘以相应随机系数以增强鲁棒性。通过逆DCT(IDCT)变换我们成功地将调整后的频率信息还原回时域空间完成整个信号处理流程

4.3 时空图en-de模型

在通用性和灵活性方面,我们的框架表现尤为突出.该框架能够无缝整合到多数现有的时空序列生成(STG)预测模型中.我们主要探讨了两种核心方法:基于卷积神经网络(CNN)和基于循环神经网络(RNN)的解决方案.对于编码器部分,基于CNN的方法通常采用空间并行设计策略,其核心技术路径可被描述为空间并行设计策略.其核心技术在于交替应用时间卷积与图卷积以捕捉时空依赖关系,而时间卷积模块的主要实现形式可被视为扩张因果卷积机制,该机制通过逐步增加网络深度来不断扩大感受野覆盖范围.对于解码器部分而言,基于CNN的方法倾向于通过多层感知机(MLP)架构实现降维映射,而基于RNN的方法则倾向于构建更为复杂的递进式特征提取体系

4.4 双任务训练

4.4.1 负样本的选择

对于对比学习而言,在应用数据增强技术时应尽量获取去除噪音后的正例样本,并采用随机方式选取负例样本。尽管是随机选取的方式但也需注意一定的限制条件这是因为我们的目标是尽量降低所选负例之间的语义相似度从而减少潜在的信息干扰具体可参考实验部分的相关设置

在STG预测模型中构建的样本数据间存在显著的时空关联性(时空关联性),具体体现在接近度(接近度)、周期性(周期性)等方面。例如图4展示了PEMS-BAY数据集下不同时间尺度下的平均流量速度分布情况。我们观察到,在周一早晨6:00至7:00时间段内的交通模式与当天7:00至8:00时段呈现高度相似(接近度高),同时也与每日周期(daily periodic)和每周周期(weekly periodic)的时间段具有相似特征。因此,在时空相近的情况下(无论是在白天还是晚上),潜在空间中的样本可能表现出相似的空间时序特性。如果我们采用语义上相似但性质不同的样本作为负例进行对比学习,并尝试分开它们的空间表征,则可能导致空间表征结构被破坏从而降低模型性能

4.4.2 loss

对比损失和预测损失之和用于模型的训练损失。

在这里插入图片描述

similarity(Z_i,Z'_i)=\frac{Z_i^TSZ'_i}{||Z_i||\times||Z'_i||} \
\mathcal{cross-entropy loss}_{cl}=\frac{1}{M}\sum_{i=1}^{M}-log\frac{exp(similarity(Z_{i},Z'_{i})/\tau)}{\sum_{z_j\in{z''_i}}exp(similarity(Z_{i},Z_{j})/\tau)}} \quad \tau为温度参数 \\ \mathcal{L}{pred}=平均预测与真实值之间的差异=\frac{1}{M}\sumN_{i=1}|\hat{Y}_i{t:(t+T)}-{Y}i^{t:(t+T)}| \\ 总损失=\mathcal{L}{cl}+\lambda\mathcal{L}{pred}$。

全部评论 (0)

还没有任何评论哟~