基于深度学习时间序列分类研究综述[论文阅读]
基于深度学习时间序列分类研究综述
- 核心论文
- 写在前面的话
- 原文概述
-
- 摘要
- 1引言
- 2背景
-
- 2.1时间序列分类
- 2.2基于深度学习的时间序列分类
- 2.3生成性或判别性方法
-
- 生成模型
- 判别模型
第三项方法
* 3.1 为什么判别式的端到端架构?
* 3.2 对比分析
* 完全卷积神经网络
残差式网络
编码模块
多层次卷积架构
时序Le-Net
多通道深度卷积架构
时序式卷积架构
* 3.3超参数
* 4实验装置
* * 4.1数据集
* * 单变量存档
* 多变量存档
* 4.2实验
-
第五部分的结论
-
针对单一时间序列的数据分析部分
-
与当前最先进算法的对比分析
-
公正比较的重要性
-
本节将深入探讨多变量时间序列分析的结果研究。
-
通过分析数据集的特征属性, 我们可以确定最优模型架构的关键因素。
-
本部分将详细讨论随机参数初始化对模型性能的具体影响
-
6可视化
-
- 6.1类激活图
-
- GunPoint数据集
-
肉类数据集
- 6.2多维尺度
-
7结论
-
总结和感悟
-
核心论文
作者
作者
作者
写在前面的话
TSC领域当前最先进的DNN架构是什么?
原文概述
摘要
摘要
1引言
过去二十年间,时间序列分类问题(TSC)被视为数据挖掘领域最具挑战性的课题之一。
随着可获得的时间数据数量不断增加(Silva等人, 2018; Bagnall等人, 2017),自2015年以来已开发出了数百种TSC算法。
由于它们固有的时间顺序特征,在几乎每一项需要某种人类认知过程的任务中都普遍存在着相关的时间序列数据(Längkvist等人, 2014)。
实际上,在任何考虑次序这一概念的数据驱动分类问题中都可以将其视为TSC问题的研究对象(Cristian Borges Gamboa, 2017)。
广泛应用于现实世界中的各个领域,
如电子健康记录分析,
人类活动识别,
声学场景分类以及网络安全防护。
此外,
UCR / UEA
https://www.timeseriesclassification.com/ 数据集库展示了不同应用背景下的多样化的时序数据集,
这表明了TSC问题在多个实际领域的广泛应用。
鉴于时间序列数据的准确分类是一个关键问题(Bagnall,20172),研究人员开发了多种方法来解决这一挑战(Lines and Bagnall,20155)。其中最著名且传统的TSC方法之一是结合最近邻(NN)分类器与距离函数(Lines and Bagnall,2015)。特别地,在NN分类器配合下使用的动态时间扭曲(DTW)距离已被证实是一种强大的基准方法(Bagnall,20176)。 Lines和Bagnall(2015)对多种距离度量进行了比较研究,并发现没有单一的距离度量显著优于DTW。他们还指出,在集成多个不同度量的NN分类器优于整体组件优化策略时应采取混合方式。因此,在过去几年中出现了一系列显著超越NN-DTW性能的新方法集
这些新方法集通常基于决策树集合模型(如随机森林),其中采用不同的判别分类器(支持向量机SVM或其他类型的NN)进行集成(Baydogan等人,2013; Deng等人,2013)。此外,在单个或多个特征空间中使用不同类型的判别模型也是一种常用策略(Bagnall等人,2016; Bostrom和Bagnall,2015)。这些集成方法普遍优于NN-DTW算法(Bagnall等人,2017)并具有一个共同特点:它们都采用了数据转换阶段的技术,在此阶段时间序列数据被映射到新的特征空间中进行分析(例如形状片变换或基于DTW的功能)
这种方法推动了COTE集合分类器的开发(即基于转换的集合)(Bagnall等人,20167),该框架不仅在同一转换下集成不同分类器,并且在不同的时间序列表示形式下也实现了多类别的集成效果
随后研究者进一步发展出HIVE-COTE系列算法通过引入分层投票系统扩展了COTE框架,并利用概率投票机制以及新增的分层结构提升了性能表现
当对UCR/UEA数据库中的85个公开测试集进行评估时,HIVE-COTE算法的表现已证明是当前最优的时间序列分类算法(Bagnall等人,2017)
为了达到高精度目标,HIVE-COTE展现出极高的计算强度,但在大规模数据挖掘的实际应用中却难以实施(Bagnall等,2017)。该方法要求训练37个分类器并系统性地交叉验证所有可能的参数组合,这使得其在某些情况下无法完成模型构建过程(Lucas等,2018)。为了突出这一局限性,请关注其中一个是Shapelet变换(Hills等,2014)的情况:该技术的时间复杂度为O(n^2*l^2),其中n表示数据集中的时间序列数量,l代表每条序列的具体长度.此外,额外增加的时间成本体现在每个分类器都需要在测试阶段遍历整个训练集以找到最近邻.值得注意的是,即使考虑到这一局限性,将其部署于实时环境仍面临巨大挑战.最后,HIVE-COTE由于其规模化的运算需求而显著提升了整体运行时间
在为时间序列分类(TSC)构建当前最先进且不依赖于深度学习的分类器之后(Bagnall et al, 2017),我们探讨了深度学习的发展及其在各种分类任务中的成功应用(LeCun等人, 2015)。这些研究激发了近期针对TSC的研究兴趣,并推动了基于深度神经网络的方法的进步(Wang et al, 2017)。例如,在该领域取得的重要突破包括基于卷积神经网络(CNNs)实现图像识别任务的人类水平性能(Szegedy等, 2015)。鉴于近年来深度神经网络在计算机视觉方面取得的巨大成功,并且发现了其与时间序列数据处理之间深刻的关联性。值得注意的是,在自然语言处理和语音识别任务中展现出的高度相似性也是时间序列数据特性的体现。
在此背景下,本文针对以下开放性问题:
TSC领域的当前前沿DNN架构是哪类?
现有DNN方法是否能达到TSC领域的最先进水平同时又不比HIVECOTE等算法复杂?
哪种DNN架构设计最适合适应TSC任务?
随机初始化对深度学习分类器的性能有何影响?
是否有可能通过非黑盒化方法来增强模型可解释性?
本文系统性地对现有的基于深度学习的时间序列分类技术进行了全面评估。 随着高性能计算硬件的发展趋势逐渐明朗,在研究过程中我们详细阐述了针对深度架构的有效训练策略,并通过端到端的学习流程提取出隐含的时间序列判别特征。 我们借鉴了Bagnall等人的研究工作,在Python、Keras(Chollet, 2015)以及Tensorflow(Abadi等人, 2015)平台上构建了一个统一的框架来进行大规模多GPU环境下深度模型的高效训练方案。
在单变量数据集评估之外,在进行了多变量时间序列(MTS)数据集的系统性评估后发现,在测试了包括Baydogan在内的12种方法后发现。通过多变量评估分析表明其优势在于能够有效利用不同层次函数的不同光滑度特性以缓解维度灾难问题,并且这一发现得到了Bellman、Keogh与Mueen以及Poggio等人的进一步证实。此外,在与现有的深度学习框架进行了广泛的比较分析后发现 GPU 的并行计算技术同样具有显著优势
在该研究项目中涉及97个单变量和多变量时间序列数据集其中包含了约10亿个待优化的参数值值得注意的是在UCR/UAE档案中相对较小的训练集可能导致过拟合(Zhang et al. 2017年)。结果显示DNN在性能上显著优于NN-DTW;此外在深度残差网络架构下获得的结果与COTE和HIVE-COTE方法基本持平(He等. 2016年Wang等. 2017年)。最后深入分析了随机初始化策略对模型性能的影响及其机制
本文其余章节的结构安排如下:第2节介绍了为TSC提供背景资料的主要架构类型相关内容;第3节详细阐述了测试体系结构的具体细节;第4节着重描述了我们的实验性开源框架设计;第5节系统分析并讨论了相应实验结果与分析内容;第6节深入探讨了几种减轻深度学习模型黑盒效应的方法;最后,在第7节总结了主要研究发现并展望了未来发展方向。
- 通过实际案例阐述,深度学习如何应对一维时间序列数据。
- 我们开发出一种统一的分类体系结构,该体系结构将TSN最近在各个领域的DNN应用整合为两大核心类别:生成模型与判别模型。
- 我们深入阐述了专为TSC设计的九种端到端深度学习模型架构。
- 在单变量UCR / UEA档案基准以及12个MTS分类数据集上,我们对这些模型进行了系统评估。
- 我们向社区提供了首个开源框架工具,该工具集成并优化了九种主流方法论技术。
- 我们深入探讨了类激活图(CAM)的应用场景,并分析其如何帮助减少DNN工作原理上的"黑箱效应",同时解释各建模方案所对应的决策机制差异。
2背景
在本节里头, 我们先来阐述一些基本概念, 为后续内容打下基础. 接下来, 我们将深入探讨TSC任务中深度神经网络(DNN)所依据的全面理论框架. 最后部分, 我们对各类深度神经网络架构进行了系统分类, 并通过实际案例展示了这些模型如何应用于现实世界的数据挖掘挑战.
2.1时间序列分类
在介绍不同类型的神经网络架构之前,在介绍一些TSC的正式定义。

2.2基于深度学习的时间序列分类
自AlexNet(Krizhevsky团队于2012年)首次在ImageNet竞赛中夺冠以来, 深度CNN架构在多个不同领域(LeCun及其团队于2015年)已经展现了显著的成功案例, 包括图像识别任务中达到人类水平的表现(Szegedy等人, Szegedy et al., 用于自然语言处理的各种复杂任务等)。基于其卓越的表现, 在多个不同领域中取得显著成效后, 研究人员已经开始将这些网络应用于时间序列分析方面(Cristian Borges Gamboa, 用于时间序列分析方面的研究工作)。
卷积可以被视为在时间序列上应用和滑动滤波器。 与图像不同,滤镜仅显示一个维度(时间)而不是两个维度(宽度和高度)。 滤波器也可以看作是时间序列的通用非线性变换。 具体地说,如果我们将长度为3的滤波器与单变量时间序列进行卷积(相乘),则将滤波器值设置为等于[\frac{1}{3}, \frac{1}{3}, \frac{1}{3}],卷积将导致应用具有长度为3的滑动窗口的移动平均值。将卷积应用于居中时间戳t的一般形式在下面的等式中给出:
C_t = f(\omega*X_{t-l/2:t+l/2}+b) | \forall t \in [1,T]
其中C表示的是长度为T的单变量时间序列X和长度为l的滤波器\omega上应用的卷积(点积), 然后添加偏置b,最后输入到非线性激活函数例如整流线性单元(ReLU)中的结果。 一个时间序列X上的卷积(一个滤波器)的结果可以被认为是经历滤波处理的另一个单变量时间序列C. 因此,在时间序列上应用多个滤波器将产生多变量时间序列,其维度等于所使用的滤波器的数量。 在输入时间序列上应用多个过滤器的方法可以学习多个判别特征,这对分类任务有很大帮助。
与MLP不同,在CNN中采用相同的位置卷积(使用相同的权重参数w和b)将对所有时间戳t \in [1,T]进行处理。 这是一个CNN的核心优势(称为权重共享特性),使得模型能够在时序数据中提取不变的特征。
当采用MTS作为卷积层的输入时,在空间维度上滤波器的数量与输入MTS的空间维度相同,并且该数量与时间无关。
最后分析表明不宜手动设置过滤器的值 \omega
诸如平均或最大池化的本地池化采用输入时间序列并通过在其滑动窗口上进行聚合操作以降低其长度T. 例如, 当滑动窗口的长度设定为3时, 所得到的时间序列合并结果将具有\frac{T}{3} 的长度. 当步幅等于滑动窗口的长度时, 该结论仅在特定条件下成立. 当采用全局池化操作时, 时间序列将在整个时间维度上进行聚合处理, 最终生成一个单一数值结果. 换句话说, 这一过程类似于设置滑动窗口宽度与输入时间序列宽度相等来进行局部区域处理. 通常情况下, 通过引入全局聚合的方式能够显著减少模型参数数量, 进而降低过拟合风险, 同时也为使用梯度加权 attentive机制(CAM)来解释模型决策过程提供了便利(Zhou et al., 2016)
除了池化层外,深度学习架构中还包含归一化层。对于时间序列数据,在每个通道上执行批量归一化操作以防止内部协变量在小批量时间序列训练中转移(Ioffe和Szegedy, 2015)。另一种归一化方法由Ulyanov等人于2016年提出,在该方法中对每个实例进行标准化而不是每批次。后一种方法被称为实例标准化,并模拟通过梯度下降学习每个层的每个训练实例的平均值和标准偏差的时间序列训练数据的z标准化参数。(各种归一化参考此处)
判别层基于输入时间序列的表现(来自卷积运算的结果),并输出数据集中类变量的概率分布情况。一般情况下,在MLP之前的softmax层之前会有一个额外的非线性全连接(FC)层配置;这将增加网络中的参数数量。用于训练深度CNN参数的过程与训练MLP相同:首先进行前馈传递运算以完成特征提取;随后通过反向传播算法进行梯度更新以优化模型权重参数值。如图所示的是一个具有三个卷积层的时间序列分类(TSC)深度卷积神经网络(CNN)架构的具体实例。

2.3生成性或判别性方法
TSC深度学习体系主要包含两类核心模型:生成与鉴别模型(如Längkvist等人2014年所提出的)。 为了更深入地探讨这些基本单元的特性及其相互作用关系,我们将这两个大类进一步划分为若干子类群,并在后续章节中逐一阐述这些细分
生成模型
生成模型通常会在构建分类器之前执行无监督预训练任务(Längkvist et al.等, 2014)。 在时间序列分类领域, 此类网络常被归类为基于特征提取的方法(Bagnall等, 2017)。 以下是一些常见的非深度学习生成方法: 自回归模型(Bagnall和Janacek, 2014); 隐马尔可夫模型(Kotsifakos和Papapetrou, 2014); 核方法(Chen等, 2013)。
对于所有生成方法,目标是在训练分类器之前找到时间序列的良好表示(Längkvist et al等,2014)。通常,为了对时间序列建模,分类器之前是无监督的预训练阶段,例如堆叠去噪自动编码器(SDAE)(Bengio等人,2013; Hu等人,2016)。 Wang等人提出了一种基于CNN的生成模型(2016b); Mittelman(2015)作者介绍了一种去卷积运算,然后是一种有助于重建多变量时间序列的上采样技术。深度信念网络(DBNs)也被用于以无人监督的方式对潜在特征进行建模,然后利用这些特征对单变量和多变量时间序列进行分类(Wang等,2017a; Banerjee等,2017)。在 Mehdiyev et al. (2017); Malhotra et al. (2018); Rajan and Thiagarajan (2018),RNN自动编码器被设计为首先生成时间序列然后使用学习的潜在表示,他们在这些表示之上训练分类器(例如SVM或随机森林)来预测给定输入时间序列的类别。
其他研究包括Aswolinskiy等(2017)、比安奇等人(2018)、Chouikhi等(2018)以及Ma等人(2016),他们采用自我预测建模方法进行时间序列分类工作。其中首次应用于重构时间序列,并在储层空间中利用学习表示进行分类操作。我们通过传统的ESN构建了这种类型体系结构的示例框架。此外,在Chen et al.的研究中提出了基于核心学习表示的方法,并结合SVM或MLP进行分类工作;Che et al.则进一步发展了相关技术框架。Gong等人(2018)与王等人(2016)开发了一种基于元学习优化的算法来设计适用于单变量和多变量时间序列的最优ESN架构;而关于生成式ESN模型的相关细节,则可参考最近的一项实证研究(Aswolinskiy等,2016)。该研究对多变量与单变量时间序列在储层空间与模型空间中的分类性能进行了详细比较分析
判别模型
判别式深度学习模型是一种主要通过时间序列原始输入(或其人工设计特征)与数据集类变量概率分布之间的对应关系来进行分类的任务模型。现有研究已经提出多种具有鉴别力的深度学习架构用于解决TSC问题,在此基础上我们发现这类模型可进一步划分为两大类:第一类为基于人工设计特征的传统深度学习模型;第二类则代表了端到端式的深度学习架构。
手工工程方法中最常见的特征提取方法之一是基于受计算机视觉启发的具体成像技术将时间序列转换为图像。例如Gramian字段(Wang和Oates, 2015b, a)、复发图(Hatami等, 2017)、Tripathy和Acharya(2018年)以及马尔可夫过渡领域(Wang和Oates, 2015)。与图像变换不同的是,在这种情况下其他特征提取方法并非完全域不可知。这些特征通常首先通过结合一些领域知识进行人工设计,并将输入传递给深度学习判别分类器进行分析。例如Uemura等人。(2018)就从外科学医生手持传感器装置中提取若干特征(如速度),以评估手术训练期间的操作技能水平。实际上,在这一领域内绝大多数具备人工设计特性的TSC深度学习模型均应用于人体活动识别任务的研究中(Ignatov, 2018)。有关利用移动及可穿戴传感器网络进行人体运动检测的不同深度学习应用及其详细描述,请参考最近对具有或无人工设计功能的TSC深度学习方法的系统性调查研究
相较于传统的特征工程方法,在端到端深度学习中会融合特征提取与模型优化的过程,并在此基础上微调判别分类器(Nweke等, 2018)。鉴于这类深度学习方法无需依赖领域知识,并且省去了针对特定领域的特殊处理步骤,在此情况下我们认为其神经网络架构能够更好地分离这些端到端的方法。
在Wang等人(2017b);耿和罗(2018年),一个MLP被设计为从头学习一个有区别的时间序列分类器。 MLP方法的问题在于时间信息丢失并且所学习的特征不再是时不变的。通过从原始输入时间序列中学习空间不变的滤波器(或特征),这就是CNN最有用的地方(Wang et al。,2017b)。在我们的研究中,我们发现CNN是TSC问题应用最广泛的架构 ,这可能是由于它们的稳健性和与复杂架构(如RNN或MLP)相比相对较少的训练时间。已经在UCR / UEA档案的子集上提出并验证了CNN的几种变体(Chen等人,2015b; Bagnallet等,2017),例如残差网络(ResNets)(Wang等人,2017b; Geng和Luo) ,2018)为卷积层添加线性快捷连接可能会提高模型的准确性(He et al。,2016)。在Le Guennec等人。 (2016);崔等人。 (2016);王等人。 (2017b);赵等人。 (2017年),传统的CNN也在UCR / UEA档案中得到验证。最近在Wang等人(2018),Wang等人(2017b)提出的架构被修改为利用基于Daubechies 4 Wavelet值的滤波器初始化技术(Rowe和Abbott,1995)。在UCR / UEA档案之外,深度学习已经在不同领域的若干数据集上达到了最先进的表现(L?ngkvist等,2014)。对于时空系列预报问题,如气象学和海洋学,Ziat等人提出了DNNs(2017年)。 Strodthoff和Strodthoff(2018)提出使用深CNN检测来自心电图数据的心肌梗塞。对于可穿戴传感器的人类活动识别,深度学习正在取代特征工程方法(Nweke等,2018),其中特征不再是手工设计,而是通过反向传播训练的深度学习模型学习。另一种类型的时间序列数据存在于电子健康记录中,其中最近具有CNN的生成性对抗网络(Che等人,2017a)被训练用于基于患者历史医疗记录的风险预测。在Ismail Fawaz等人(2018b),CNN旨在达到最先进的手术技能识别性能。刘等人(2018)利用CNN模型的多变量和滞后特征特征,以实现预测和健康管理(PHM)2015挑战数据的最新准确性。最后,最近对生理信号分类的深度学习的回顾揭示了CNN是用于所考虑任务的最流行的架构(Faust等,2018)。我们提到了一种最终类型的混合体系结构,它们在UCR / UEA归档数据集上显示了TSC任务的有希望的结果,其中主要是CNN与其他类型的体系结构相结合,例如门控循环单元(Lin and Runger,2018)和注意机制(Serrà等,2018)。读者可能已经注意到CNN出现在自动编码器下以及图5中的端到端学习下。这可以通过以下事实来解释:当训练为自动编码器的CNN具有与以端到端的方式训练的CNN有完全不同的目标函数。
现在我们已经提出了为TSC分组DNN的分类法,我们在下面的部分中介绍了我们在实验评估中包含的不同方法。 我们还解释了选择这些算法背后的动机。

3方法
在本节中,我们随后阐述了这种实证评估选择具有显著差异性的端到端方案的原因。接着,在后续部分中系统性地阐述了九种不同深度学习架构的特性及其各自的优缺点
3.1为什么判别的端到端方法?
如上文所述,在第2节中提到了生成模型的核心特点在于构建自回归时间序列预测器,并将其潜在表示作为现有分类器(如随机森林或支持向量机SVM)的输入。尽管这些模型有时能够捕获时间序列的趋势性特征,在本研究中我们决定将这类生成方法排除在实验评估范围之外的原因如下:
该方法主要应用于非分类任务,并作为整体分类方案的一部分(Bagnall等, 2017);
普遍认为生成模型在准确性和直接判别模型之间存在差距(Bagnall等, 2017; Nguyen等, 2017);
这些模型的实现通常比判别模型更为复杂,因为它们增加了拟合时间序列生成器这一额外步骤-这一过程被视为许多方法中的瓶颈,其代码通常不对外开放,例如Gong等.(2018); Che et al.(2017b); Chouikhi等.(2018); 王等人.(2017A);
这些模型的准确性往往依赖于所选择的基础分类器,有时甚至不是基于神经网络的方法(Rajan和Thiagarajan, 2018)。
鉴于生成模型存在局限性,我们决定将实验评估限定为针对TSC任务的判别深度学习模型。除了聚焦于判别模型的研究之外,我们还决定仅考察端到端方法,并因而排除基于特征工程的传统分类器。我们的这一选择基于以下考虑:我们认为深度学习的主要目标应是通过消除由人工设计特性引入的偏差(Ordóñez和Roggen, 2016)来使网络能够自主提取最具判别力的任务相关特征;这也与人类活动识别领域的共识相符,在该领域中深度学习方法的表现精度很大程度上取决于所提取特征的质量(Nweke等, 2018)。最后,在我们的实证研究中发现,在针对任意TSC任务提供领域黑箱式的深度学习方法实现方面取得经验研究的最佳效果时,则最好将其不含任何领域知识的基础模型与其基准方法进行比较。
至于为何选择九种方法(在下一节详述),首要原因在于TSC领域可区分端到端深度学习模型中我们希望涵盖各种架构类型:如卷积神经网络(CNN)、全连接型CNN、多层感知机(MLP)、残差网络(ResNets)、 echo状态网络(ESN)等。其次,在面对无法对TSC领域所有验证方法进行实证研究的情况下,则决定仅在单变量时间序列UCR/UEA数据库的整体数据集或其子集上实施这些方法/基于MTS数据库(如Baydogan, 2015)的研究。最后,在选择不涉及解决TSC问题子任务的方法时需予以注意:例如,在Geng与Luo(2018)中对CNN进行了修改以应对不平衡的时间序列数据集分类问题。为证明这一选择的有效性我们将强调通过数据增强技术(Ismail Fawaz等, 2018a)以及类权重调整技术(Geng与Luo, 2018)等手段能够解决这类不平衡的TSC问题,并指出此类技术也可广泛应用于深度学习算法的改进中。因此若我们在研究中确实采用了用于平衡处理不平衡TSC任务的方法则评估其是否属于深度学习分类器范畴或改进本身以提升模型准确度的任务就变得更加复杂了。此外还需指出最近的研究热点之一是早期时间序列分类问题(Wang等人, 2016a),其中深度CNN被修改以实现早期阶段的分类目标;而近年来针对早期TSC任务则提出了深度强化学习DS方法(Martinez等人, 2018)。为了满足读者进一步了解的需求我们将引导读者参考最近关于早期时间序列分类深度学习的研究综述(Santos与Kern, 2017)。
3.2方法比较
在回顾了近期的时间序列分类深度学习方法后, 我们采用了九种架构来进行对比研究. 具体包括多层感知机MLP, 全卷积网络FCN, 残差网络ResNet, 编码器Encoder, 多尺度卷积网络MCNN, t-LeNet, 多通道深度卷积网络MCDCNN, 时间卷积网络Time-CNN以及时不变回波状态网络TWIESN. 在此基础上, 我们将重点阐述几位作者尤为关注的几种卷积神经网络.
完全卷积神经网络
完全卷积神经网络(FCNs)最初由Wang等人提出。(2017b)该方法被用于对单变量时间序列进行分类,并通过UCR / UEA档案中的44个数据集进行了验证。FCN主要基于卷积网络结构,在设计上避免了局部池化层。这表明在整个卷积过程中输入的时间序列长度始终保持不变。此外...取代了传统的全连接层。从而显著降低了模型的参数数量的同时能够通过CAM技术来突出显示哪些部分最为关键。
该架构基于Wang等人在2017年的研究首次由三个卷积模块构成。这些模块各自包含三种核心操作:首先是执行卷积运算后再进行批量归一化处理(参考Ioffe和Szegedy, 2015),其输出随后经ReLU激活函数处理。第三模块的输出在整个时间维度上取平均值。随后将传统的softmax分类器完全连接至GAP层的输出。所有卷积操作均采用步长为1,并采用零填充以维持每层处理后的序列长度不变。第一层卷分量包括128个滤波器且每滤波器宽度设定为8像素;第二层层包含了数量翻倍至256个滤波器且每滤波器宽度缩减至5像素;最后一层(也是本架构的最后一层)则由同样数量的128个滤波器构成
通过观察FCN的设计架构可以看出它并未引入任何池化层或正则化机制。此外,在处理不同长度的时间序列时,FCN模型表现出参数数量不变性的显著优势(如表1所示的#invar指标)。这一特性源于使用全局平均池化操作的特点,在迁移学习框架下能够有效利用预训练模型的优势。具体而言,在某个源数据集上完成模型训练后,在目标数据集上进行微调以进一步提升性能。
残差网络
该研究团队在2017b年提出的第三个也是最后一个结构采用了残差网络方案。(ResNet)针对TSC任务而言,在这个方案中设计了一个深度最高、包含十一层的设计方案。其中前九层为标准卷积操作 layer, 最后一层用于对时间维度上的时间序列进行平均的时间池化操作 layer。 ResNets的一个显著特点是在连续卷积 layer之间引入了_shortcut_连接。 实际上, 这种设计与传统卷积操作如在全连接网络中的应用不同之处在于, 它通过引入_shortcut_连接将残余 block 的输出直接连通到输入 layer, 这使得梯度能够直接流动于这些连接路径而不必经过冗长的操作链路, 因此在训练深度神经网络时更容易避免梯度消失的问题(He et al., 2016)。
该网络包括三个残差模块,并后面跟着一个GAP层以及最终的一个softmax分类器;其中神经元数目与数据集中类别数相等。 每个残余模块首先包含三个卷积操作,并将这些操作的结果加到模块输入端;然后馈送到下一层;在所有卷积操作中使用了固定数量64个过滤器;在ReLU激活之前进行了批归一化处理;在每个残余模块内部,默认情况下使用8×8、5×5和3×3大小的滤波器序列

与FCN模型具有类似的架构设计,在不同的数据集上应用时会保持固定数量的参数模块
编码器
最初由Serra等研究者提出于2018年
类似于FCN的设计,在本模型中前三层采用了具有较小规模修改的卷积层结构。具体而言,在第一卷积块中使用了长度为5、数量为128的滤波器,在第二卷积块中采用数量为256、长度为11的设计,并在第三卷积块中配置了数量达到512、长度分别为21的滤波器组。每一卷积操作后均接有归一化操作(Ulyanov等, 2016 ),其输出随后通过参数整流线性单元(PReLU)激活(He et al. , 2015 )。经过PReLU激活后施加了_ dropout_ 操作(比例设为0.2),接着进行了最大池化处理(窗口大小设为2)。第三卷积块之后传递给注意力机制(Bahdanau等, 2015 ),该机制使得模型能够识别时间序列在时域中的关键特征点对分类的影响机理得以实现:即通过将输入MTS与经过softmax函数处理后的第二MTS进行乘法运算,并使第一MTS中的每个元素作为权重系数来体现各自的重要性特征点对分类的影响机理得以实现:即通过将输入MTS与经过softmax函数处理后的第二MTS进行乘法运算,并使第一MTS中的每个元素作为权重系数来体现各自的重要性
除了替代使用_GAP_层为'注意力'('attention')层外,在主要的三个核心变更方面编码器与FCN存在差异:
(1)采用PReLU激活函数;
(2)引入了'dropout'与'正则化技术';
(3)采用了'最大池化操作'。
需要注意的是,在Encoder的设计过程中若能精细地构建'注意力机制'使得各层均保持不变性,并促使研究者采用迁移学习策略。
多尺度卷积神经网络
最初由Cui团队于2016年提出的一种创新方法
对于第一次变换操作而言,在不发生变化的情况下保留输入子序列,并将其作为独立的第一卷积层进行处理。随后进行下采样操作(即第二次变换),这会导致较短且长度不同的子序列生成,并随后会经历另一个独立且与第一个卷积层并行运行的过程。接着采用平滑技术进行第三次变换后得到的结果将是平滑性质的子序列,并且其长度与原始输入相等;这些结果随后会被馈送到与前两个独立卷积层并行连接的后续处理模块中进行进一步运算。
在第一个卷积块中,各个卷积操作的结果经过整合后作为后续卷接通路的基础输入.随后,施加S型激活函数,在该阶段部署了一个包含256个神经元的全连接层.最后阶段通常采用Softmax分类器,并与与数据集类别数量相当数量的神经元协同工作.
请注意,在此网络中每个卷积操作均采用256个过滤器,并选用sigmoid作为激活函数后跟上最大池化操作。两种体系结构的超参数配置通过网格搜索优化,在训练集未见的部分进行分割:滤波器长度与池化因子共同决定了最大池操作的具体实施规模。该网络共有4层结构,在这些层中只有前两个卷积层具有可迁移性。最后基于WS方法在测试阶段也采用相同的子序列提取策略因此输入时间序列被划分为若干类别其分类结果则由对提取子序列预测标签实施多数投票决策得到。
Time Le-Net
Time Le-Net(t-LeNet)最初由Le Guennec等人提出(2016)并且受到LeNet架构文件识别任务的巨大表现的启发(LeCun等,1998a)。 该模型可以被认为是具有两个卷积的传统CNN,其后是FC层和最终的softmax分类器。 与FCN有两个主要区别:(1)FC层和(2)本地最大池操作。 与GAP不同,局部池化通过获取本地池窗口中的最大值来引入激活图中的小扰动(卷积的结果)的不变性。 因此,对于池大小等于2,池化操作将通过获取每两个时间步之间的最大值将时间序列的长度减半。
第一组卷积:两组卷积操作被设计用于特征提取阶段。第一组包含5个过滤器,在应用完这些过滤器后进行2大小的最大池化操作以降低序列长度。第二组则包含20个过滤器,并在完成这些过滤后进行4大小的最大池化层处理。这两组卷积操作的结果使输入序列的有效时长缩减至原来的1/8(即8 = 4 × 2)。在每组卷积块之后都引入了一个非线性的全连接层,并由500个神经元组成。其分类器部分同样采用与之前一致的结构设计
不同于ResNet及FCN架构,在本方法中我们采用的是FC层而非GAP层这一设计选择导致固定不变的特征通道数量相对较少(共两组),这意味着为了实现良好的性能表现必须显著增加可训练参数的数量这不仅依赖于模型内部结构还需要考虑输入时间序列的时间长度这一因素因此在迁移学习场景下该网络体系的主要适用范围局限于最初的两个卷积层其参数规模主要由所选用滤波器的数量及其深度决定
值得注意的是,在t-LeNet中采用数据增强技术来防止过拟合是一种常用的方法之一,在涉及时间序列预测的任务中尤其适用于UCR/UAE档案中的小规模时间序列数据集的研究工作
多通道深度卷积神经网络
多通道深度卷积神经网络(MCDCNN)最早是在两个多变量时间序列数据集上开发并经过验证的(Zheng et al., 2014, 2016)。该网络架构以传统深度CNN为基础,并对其进行了主要修改:具体而言,在处理MTS数据时,在输入每个维度(即信道)上分别进行独立且并行化的卷积操作。每个维度的数据依次经历两个卷积阶段:首先应用8个长度为5的一维滤波器进行特征提取,并使用ReLU作为激活函数;随后每个卷积层后紧跟一个长度为2的一维最大池化操作以缩减特征图尺寸。所有维度上的第二层卷积输出会在通道轴上融合连接后输入到一个包含732个神经元的全连接层中,并采用ReLU激活函数进一步处理。最后通过附加一个softmax分类器与多个神经元结合实现分类任务(这些神经元数量等于数据集中的类别数目)。为了提高可转移性,在softmax分类器之前增加了全连接层
时间卷积神经网络
时间CNN方法最先由Zhao等人提出。(2017年)针对单变量与多变量时间序列分类任务(TSC)。相较于先前描述的网络架构存在三个显著差异:第一,在此设计中采用的是基于区域平均池化(local average pooling),而非局部最大值池化(local max pooling)。第二,在MTS数据处理过程中…最后但最值得注意的是…其分类器直接将输出连接至第二个卷积模块的结果而不设全局平均池(GAP)层。第三,在此架构中仅在第二卷积模块之后应用全连接层(FC layer),其中采用sigmoid激活函数以替代softmax,并未强制要求各类概率之和等于1。此外,在传统CNN架构中常用于多维数据的时间序列分类任务时…它们会分别对各个维度执行卷积操作以提升分类效果。然而在此设计中由于MTS数据特性的限制…所有维度的数据都会被同一个卷积核所作用进而实现统一化的处理效果
该网络由两个连续排列的卷积层构成, 分别使用6及12个滤波器, 接着执行长度为3的局部平均池化操作。其中所使用的激活函数为sigmoid, 该网络输出部分由全连接层构成, 其中全连接层神经元的数量与数据集中的类别数相等。


3.3超参数
表1和表2分别展示了除TWIESN之外的所有描述方法体系结构及其优化超参数情况,由于它们与其他八种算法的超参数不兼容.建议在训练集或验证集中(从训练集中分离出一部分)为所有其他深度学习分类器执行模型检查点程序.这意味着如果模型经过1000个世代的学习,则会选择在验证集或训练集中表现最佳(最小损失等于0.0001)的那一份模型来进行评估.此外,所有深度学习模型均采用Glorot均匀初始化方法进行了随机权重设置(Glorot and Bengio, 2018).值得注意的是,对于王等人提出的FCN、ResNet和MLP(2017b),我们建议每次降低学习率一半,前提是连续50个世代的学习并未见改善.最后需要强调的是,鉴于这些描述体系可能已经过拟合UCR/UEA存档并经验性设计以实现高性能的事实,这在比较基准测试分类器时始终存在潜在风险(Bagnall等, 2017).基于此,我们认为挑战组织者仅公开提供训练数据与测试数据供评估可能有助于缓解这一问题.
4实验装置
在本次实证研究中, 我们首先阐述了所采用的数据集属性. 接着, 我们深入阐述了基于时间序列分类的任务构建的深度学习模型.
4.1数据集
单变量存档
为了全面评估所有方法的效果并确保公平比较,在UCR / UEA档案库中进行了广泛的测试工作(Chen等人, 2015b; Bagnall等人, 2017)。该档案库包含85个单一变量的时间序列数据集,并涵盖了许多不同特性的情况。例如,在ItalyPowerDemand数据集中, 最小值为24的时间序列长度与HandOutLines数据集的最大值相等(均为2,709)。影响深度学习网络(DNN)准确性的重要因素之一是训练样本的数量,在DiatomSizeReduction和ElectricDevices数据集中分别达到了16例和8,926例的规模变化范围。值得注意的是, 有20个子集中仅包含较少的训练样本(实例数量在50例以内),这在采用深度架构(如ResNet)时并不会阻碍模型性能的提升。此外, 数据类别数量从最低的2类(共计31个数据集)到最高的60类( ShapesAll 数据集)呈现出显著差异性。值得强调的是, 该档案库中的时间序列数据已经经过标准化处理以确保一致性
除了公开可获得之外,在选择用于UCR/UEA档案验证的方法时,则是通过将来自多个领域的数据集划分为七个不同的类别(包括图像轮廓、传感器测量值、运动捕捉信号、光谱分析结果、心电图记录、电气设备运行参数以及模拟数据分析结果)以确保分类的一致性和准确性。我们在此简洁性的方面不作重复说明,并且不作重复引用Bagnall等人在UCR/UEA档案中所描述的数据统计方法。
多变量存档
我们对包括13个MTS分类数据集的Baydogan存档进行了全面评估(Baydogan, 2015)。鉴于单个GPU内存的限制因素,在我们的实验中未涉及MTS性能测量系统(PeMS)。此外,在该存档中展示了不同特性的各种数据集合。值得注意的是,在UCR/UAE数据库中的各个子库被重新配置为统一的数据长度

4.2实验
在两个档案中的每个数据集中(共计97组数据),我们已开发了九个深度学习模型(如前文所述)。每个模型均经过十次独立运行以确保结果稳定性和可靠性。所有运行均基于相同的原始训练/测试划分方法,并采用不同随机种子以模拟实际应用中的不确定性。通过取十次运行的平均精度值可有效减少由于初始权重设置带来的偏差影响。我们对包含85个单变量时间序列分类任务与12个多变量时间序列分类任务的数据集共进行了8730次实验运算。鉴于需要开发大量模型用于分析处理工作,在由60张GPU组成的集群环境下开展运算工作更为高效可行。这些GPU主要由四种Nvidia显卡组成:GTX 1080 Ti、Tesla K20、K40与K80型号型号的混合配置使得总计算量若单独在单个GPU上完成则需约100天的时间;而借助集群环境仅需不到一个月即可完成所有运算工作流程并最终获得所需结果输出。为此我们采用了开源深度学习框架实现了整个系统的开发部署
在Lucas等人的研究基础上,在本研究中我们采用了一种基于测试集上的10次独立运行结果计算平均精度的方法进行性能评估,并与Bagnall等人的最新研究相比,在统计分析方面做了如下改进:首先参考Demšar(2006)的研究建议,在假设检验阶段采用了Friedman检验法(由Friedman于1940年提出)来拒绝零假设;随后采用了Benavoli等人的配对后续分析方法,并将Wilcoxon符号秩检验替换为其提出的5%显著性水平下的Holm校正方法;为了直观展示不同分类器之间的差异性分析,在此研究中采用了Demšar(2006)所提出的临界差异图
5结论
在本节中,我们归纳出了各类方法各自的准确性指标。所有准确性均为绝对值而非相对值,在比较算法性能时若声称算法A比算法B优越5%,则意味着A的平均准确度比B高出0.05
5.1单变量时间序列的结果
该存储库包含我们对85个单变量时间序列数据集上的9个深度学习模型进行测试所得出的10次运行原始精度的数据集。UCR / UEA档案(Chen等, 2015b; Bagnall等, 2017)对此进行了详细记录。
相应的关键差异图如图所示。
其在评估指标中的平均排名接近第二名,并且显著优于全卷积神经网络架构。
这一结果与其所声称的结果相悖,在该研究者的研究中发现全卷积神经网络架构在44项分类任务中胜出了18项。
这一发现表明通过更大规模的数据集验证了这一重要性。

我们认为ResNet之所以取得巨大成功,在于其架构设计上的高度灵活性。我们的研究结论与现有深度学习方法的研究结论一致,并且其中更深的神经网络在性能上优于较浅层的设计。值得注意的是,在过去四年时间里,神经网络的发展经历了显著的变化:从AlexNet 2012中的7层(Krizhevsky等人, 2012)增长至ResNet 2016时的1千层(He等人, 2016)。这些多层次体系通常需要大量数据才能有效捕捉到隐藏的数据特征。尽管与规模达数十亿标记图像的数据集(如ImageNet挑战赛(Russakovsky等人, 2015)和OpenImages项目(Krasin等人, 2017))相比,我们实验中使用的数据集相对较小;但在UCR/UAE文档基准测试中表现不俗。
我们本文探讨了深度CNN在TSC任务中展现出的高泛化能力背后的主要原因。首先,考虑到卷积神经网络在二维空间(如图像宽度与高度)中提取不变特征的优势,将其应用于一维的时间序列数据上显得更为高效,因此所需训练数据量相对较少即可达到良好效果。另一个主要原因在于其在语音识别等顺序数据领域的成功应用,这些领域中的文本与音频信号同样呈现出与时间序列相似的自然排列特征
MCNN和t-LeNet架构在性能上表现欠佳,在测试集中仅在一个单次地震数据集上获得最佳成绩;其共同特征在于通过提取子序列来增强训练数据的数量;模型通过从较短的时间序列片段中学习来提高分类效果,并采用多数投票机制进行预测判断;这些方法整体性能不佳(最差平均等级),这表明仅通过切片时间序列为特征提取的方法无法有效保留判别信息;与基于相位相关间隔的时间序列分类算法类似(Bagnall等人, 2017),这种方法通过对每个时间系列中的间隔进行特征提取来构建分类器;与最近的一些TSC算法相比,在测试集上的性能略逊一筹
虽然MCDCNN和Time-CNN最初被建议用于对MTS数据集进行分类, 我们已在单变量UCR/UAE存储库上对其进行了评估. 除ECG5000数据集外, MCDCNN未能击败任何分类器, 而在ECG5000数据集中几乎所有分类器均达到了很高的准确度. 这种低性能可能源于非线性FC层取代了最优算法(如FCN与ResNet)中的全局平均池(GAP)池. 该FC层减少了学习时间不变特征的影响, 这正是导致MLP、Time-CNN与MCDCNN表现高度相似的原因
该方法展现出较高的精度水平(Serrà等人, 2018)。统计分析表明,在Encoder、FCN和ResNet之间存在显著差异。研究结果表明,在36个测试数据集上进行评估时,FCN取得了最佳成绩——值得注意的是,在这些测试中与Encoder的 attention 机制相比
5.2与最先进的方法进行比较
在本节内容中
根据Bagnall等人(2017)的研究,在评估过18种分类器后, 我们筛选出表现最优的前四种算法

图8呈现了UEA基准测试的关键差异图。其中ResNet被整合到六个分类器池中。如同之前所述,在对比ResNet在测试集上的中位数精度与最先进的分类器性能时,在实验设计阶段采用了相同的初始条件设置。然而,在每次迭代过程中我们特意生成了十个不同的平均等级,并观察到对于ResNet的十个不同随机初始化情况而言,在比较各分类器排名稳定性方面表现一致的结果。统计检验并未发现COTE / HIVE-COTE与ResNet之间存在显著差异性结果。值得注意的是,在对比这四个算法性能时(PF, ST, BOSS, ResNet),它们的表现相似性并不优于COTE / HIVE-COTE算法的表现(Demšar, 2006)。值得注意的是,在采用Holm’s alpha校正后的Wilcoxon符号秩检验结果表明:NN-DTW-WW和EE表现出最差的平均排名等级(Lines等, 2018)。例如,在我们所进行的一系列实验对比中发现:当与现有的算法进行性能比较时(如ResNet > COTE > HIVE-COTE),有时会出现即使某一个算法整体表现不如另一个算法明显的情况(即某一算法可能并非所有指标下都优于另一个算法)。因此,在实际应用场景下我们应当更加注重对现有先进算法进行深入分析研究
然而,在UCR / UEA档案上进行评估时,HIVE-COTE仍然是最准确的时间序列分类模型,然而,它在真实数据挖掘应用中的使用受到了限制.这是因为其训练计算复杂度高达O(N²·T⁴),即具体而言,对于单个分类模型ST来说,这种计算复杂度带来了巨大的训练负担.但是,我们应该注意到,Bostrom和Bagnall(2015)最近的研究表明,通过随机抽样的方法能够显著减少HIVE-COTE(其瓶颈部分)运行所需的时间,而无需损失任何准确性.另一方面,当应用于图像数据时,DNN展现了这种类型的可扩展性,从而证明了其在计算机视觉领域的革命性作用——图像的数据量比时间序列数据大了一千倍(Russakovsky等,2015).值得注意的是,HIVE-COTE由于采用了基于最近邻的方法进行分类,其分类速度受限于对训练集的一次性线性扫描.相比之下,DNN借助通用GPU并行化架构实现了即时级别的分类性能.此外,与HIVE-COTE不同,DenseNet等网络架构并未对每个特定的数据集进行超参数调优;相反,在整个基准测试集中采用了统一架构.这表明对这些超参数的进一步优化研究可能会显著提升DNN对时间序列数据集(TSC)的分类准确性.这些研究结果应当为时间序列分类提供重要的理论依据与实践指导;因此,我们鼓励研究人员将DNN视为一种高效强大的实时级别的时间序列数据分类工具.
公平比较的必要性
在本节中特别关注不同机器学习时间序列分类(TSC)算法比较过程中的公平性问题。鉴于我们未对任何非深度学习前沿算法进行过训练或测试,则认为所述深度神经网络(DNN)具备获得更多训练时间的能力。进一步而言,在当前研究中较为突出的例子是基于懒惰机器学习方法如神经网络动态时间 warped (NN-DTW) 的实现。这种方法允许最大翘曲时计算时间为零,则表明通过调整翘曲窗口大小可显著提升分类准确性(Höppner, 2016; Dau等人)。此外,在数据预处理与清理方面投入更多资源可能有助于提升 NN-DTW 的准确性(Höppner, 2016; Dau等人)。最后,则认为为了实现对深度神经网络与当前最先进 TSC 方法之间具有公平性的比较,则应将用于优化网络权重的时间资源转移至优化其他非深度学习分类器上(如惰性学习器),尤其是 K 最近邻方法等经典技术
5.3多变量时间序列的结果
我们提供了一个名为资料库2的平台,并详细列出了9种深度学习分类器的性能参数及其在10次随机初始化中的表现结果。这些评估结果涵盖了来自MTS领域12个以上的数据集(Baydogan, 2015)。尽管虽然Time-CNN和MCDCNN是专为MTS数据设计的独特架构,但其性能却优于三个主流深度CNN架构(如ResNet、FCN和Encoder)。这些发现表明,在时间序列分类任务中所采用的方法具有一定的优势地位。通过关键差异图(如图9所示),我们能够直观地比较不同算法的表现效果。初步观察发现,在仅考虑单变量UCR/UEA存档的情况下(如图7所示),算法间的差异并不显著;然而当引入多变量MTS数据时(如图10所示),这种差异变得更为明显起来。这可能是因为当处理大量单变量数据时,在多变量场景下算法表现的变化并不足以产生显著影响;因此,在评估混合型时间序列分类器时必须确保拥有足够规模的MTS存档集合作为参考依据。其余分析重点则会转向对不同数据集特征如何影响算法性能的研究工作
5.4数据集的特征可以告诉我们哪些最佳架构?
我们研究的第一个数据集属性是领域。 下表展示了深度学习算法按主题分类的性能(每个条目代表该主题下最准确的数据集所占百分比)。这些主题最初由Bagnall等人(2017年)提出。 同样地,在跨领域表现最佳这一点同样显而易见。 然而,在样本数量有限的情况下(仅包含7个数据集),我们无法得出明确结论:FCN几乎总是优于用于ECG数据集的ResNet模型(Bagnall等, 2017)。

我们研究的时间序列特征二是基于长度属性。与Bagnall等人(2017)类似的研究发现,在非深度学习模型中并未观察到时间序列长度对性能的影响。表1展示了不同数据集长度下单变量数据集上各种DNN算法的平均排名结果。人们可能会认为较短滤波器(3)会削弱ResNet和FCN的表现能力,因为短滤波器无法捕获长模式特征。然而,在Vaswani等人(2017)的研究基础上可知随着卷积层数目的增加(即增加了CNN能感知的空间路径长度),ResNet和FCN算法反而表现优于滤波器长度较长的方法(21),例如编码器架构在这些数据集上的性能表现更为突出。对于循环TWIESN算法而言,在处理长时间序列时其预测精度会显著下降的原因在于循环模型可能难以保留长时间序列中早期元素中的有用信息;然而,在实际应用中TWIESN仍展现出良好的性能表现,在某些特定领域如肉类加工时间序列预测任务上实现了高达96.8%的准确度这一优异结果表明该方法成功地解决了梯度消失问题,在长时间序列学习任务中展现出显著的优势

第三个关键因素是数据集的规模及其对深度神经网络性能的影响机制。研究者们通过构建分类表展示了不同训练组大小对应的各类别模型性能表现。值得注意的是,在主导地位上,ResNet与FCN之间的差异并不显著。然而,在这一小规模数据集中(仅包含16个训练样本),ResNet与FCN的表现最差(准确率仅为30%)。相比之下,在这一小规模数据集中达到95%准确率的是Time-CNN模型。有趣的是,DiatomSizeReduction被证实是最小规模的数据集之一,这表明ResNet与FCN容易在此类极端条件下发生过拟合现象。同样地,Time-CNN是最简单的模型之一,它仅包含少量滤波器而远少于FCN设计中的512个滤波器,这种简单的架构更容易出现过拟合问题,因为其无法捕捉到更复杂的特征变化规律。因此我们得出结论:Time-CNN中使用较少数量滤波器可能是其在小型时间序列数据分析中取得良好效果的关键因素之一,但这种浅层架构可能难以处理复杂的模式识别任务。另一方面,较大的时间序列数据则更适合由更深架构如FCN与ResNet所建模的数据集特性支持下,深度学习文献普遍认为:为了实现高精度的时间序列分类器,必须具备充足的训练样本量作为支撑基础


值得注意的是,在数据集中的类数量方面值得我们关注的是
总体而言
5.5随机初始化的影响
深度神经网络的初始化已经受到该领域许多研究人员的极大兴趣(LeCun等,2015)。 这些进步有助于更好地理解和初始化深度学习模型,以最大化梯度下降算法(Glorot和Bengio,2010)发现的非最优解的质量。然而,我们在实验中观察到,DNN为 当用不良(好)随机权重初始化时,TSC的准确度显着降低(增加)。 因此,我们在本节中研究随机初始化如何在最佳和最差情况下影响整个基准测试中ResNet和FCN的性能。
下图显示了使用三种不同函数(最小值,中值和最大值)在10个随机初始化中聚合时,ResNet与FCN在85个单变量时间序列数据集上的准确度图。当第一次观察下图时,可以很容易地得出结论,无论聚合方法如何,ResNet在大多数数据集中都具有比FCN更好的性能。这与关键差异图以及之前小节中进行的分析一致,其中显示ResNet在具有不同特征的大多数数据集上实现更高的性能。深入研究最小聚合(图12中的红点)显示与ResNet相比,FCN的性能不太稳定。换句话说,权重的初始值可以很容易地降低FCN的准确性,而ResNet在获取最差的初始权重值时保持相对较高的准确度。这也与ResNet的平均标准偏差(1.48)一致,小于FCN(1.70)。这些观察结果将鼓励从业者避免使用复杂的深度学习模型,因为其准确性可能不稳定。然而,我们认为研究不同的权重初始化技术,例如利用预先训练的神经网络的权重,可以产生更好和更稳定的结果 (Ismail Fawaz等,2018c21)

6可视化
在本节中, 我们首先探讨了基于类激活图的方法, 以生成可解释性反馈, 这一过程有助于揭示分类器做出决策的具体依据. 接着, 我们引入了一种新的多维尺度可视化工具 (Kruskal and Wish, 1978), 这一方法为我们深入理解深度神经网络所学习的潜在表征提供了有效的途径.
6.1类激活图
我们探讨了类等激活图(CAM)的应用这一主题,在文献中首次提出该概念的是Zhou及其团队(2016年)。随后,在2017年的研究中,Wang等人引入了一种结合TSC任务的一维CAM模型。该方法通过突出显示对特定分类任务具有最大贡献的子序列来解释深度学习模型的决策过程。图13和图14展示了在GunPoint与Meat数据集上应用CAM所取得的实际效果。需要注意的是,在softmax分类器前若不具备GAP层,则无法使用CAM这一方法(Zhou等人, 2016)。因此,在本节中我们仅限于讨论ResNet与FCN这两种模型架构,并认为它们已达到最佳性能水平。值得注意的是,在现有的研究文献中仅有Wang等人(2017b)提出了利用深度神经网络对时间序列分类任务进行可解释分析的方法这一论断是经得起推敲的:在9种方法中仅有两种能够为深度学习模型决策提供合理的解释框架
通过引入全局平均池(GAP)层来改进ResNet和FCN模型性能的方法(Zhou et al. 201622),使得我们能够识别出输入时间序列中哪些特定区域对于分类决策具有决定性作用。具体而言,在形式化描述方面:令A(t)表示经过最后一个卷积层处理后的输出特征图;其中包含M个变量的时间序列数据(MTS)。对于单个变量m \in [1, M]的时间序列A_m(t)来说,则是通过第m个滤波器对原始输入信号进行提取得到的结果特征图。进一步地,在引入GAP层后计算类c激活度(z_c)时可采用以下公式:
z_c = \sum_m w_m^c\sum_t A_m(t)
其中第二个总和部分是对时间维度上的平均求和过程进行简略表示;而完整的计算公式也可以写作:
z_c = \sum_m \sum_t w_m^c A_m(t)
最后通过以下等式计算得到类c对应的类激活图(CAMc):
CAM_c(t) = \sum_m w_m^c A_m(t)
可以看出CAM结果实际上是一个单变量时间序列模型,在每个时间戳t∈[1,T]处的值都是该位置所有M个数据点加权求和的结果;权重则由神经网络学习获得以实现对不同特征重要性的动态分配
GunPoint数据集
该数据集最初由Ratanamahatana和Keogh(2005)在该领域引入。 该数据集包括一位男性演员和一位女性演员分别执行两种动作——即'枪把式'(Gun-Draw)与'指指点点'(Point),从而形成一个二元分类问题。 在'枪把式'(Class-1)任务中,演员首先将双手置于身体两侧。 然后从髋部安装的枪套中取出一把与原装相同的复制品,并将其对准目标停留一秒钟。 最后将枪放入腰带保护套,并使双手归位。 类似地,在'指指点点'(Class-2)任务中遵循相同的步骤:先握紧双拳并拉紧腰带保护带的一端系于腰间随后松开另一端并将其放置于腰间另一侧随后握紧双拳并再次拉紧腰带保护带的一端系于腰间另一侧最后松开另一端并将其放置于腰间原始位置以保持平衡状态。 这些动作的轨迹均被记录下来并分析其动力学特性从而形成了这个独特的单变量时间序列数据集。

为了研究目标, 我们选择了GunPoint可视化CAM这一方法, 其中有以下几点理由: 首先, 相比其他常见的噪声数据集, 它具有良好的可视化特性; 其次, 在这项研究中使用了FCN和ResNet模型, 并且在该数据集上达到了几乎完美的准确率; 最后, 仅包含两个类别, 从而使得对这些数据进行分析更加便捷.
该图表展示了当使用FCN架构(图13a及13b)与ResNet架构(图13c及13d)进行分类任务时,在训练集中的两类时间序列样本上应用CAM所得的结果。从直观上看,在分析这两个深度神经网络(DNNs)如何处理时间序列数据时,我们可以清晰地观察到它们如何忽视那些位于高原且非判别区域的时间序列特征。其特征可由时间序列呈现蓝色平面区域的部分描绘出来,并表明这些区域对分类器决策的影响较小。实际上,在这两个分类器中发现的第一个类别中最显著的部分几乎相同:具体来说,在图13a与图13c中均位于左下方的小红色凹陷区域。
一个值得注意的观察是将深度学习模型识别出的关键区域与基于小型方法提取出的最具区分度的小形体进行对比分析。这种对比也获得了Cui等人(2016)提出的数学证明的支持。该观察揭示了如何将CNN中的学习滤波器视为通过shapelets算法提取的一般形状的小形体(Grabocka等, 2014)。Ye与Keogh(2011)的研究表明,在演员手臂下垂时(图中水平轴约为120),Gun/NoGun分类任务中最重要的小形状特征出现。Hills等人(2014)则引入了一种基于小球变换的方法,并发现其提取的小球特征与Ye与Keogh(2011)所确定的小球具有相似性。对于ResNet和FCN模型,在演员手臂下垂的部分似乎也被识别为关键的时间序列区域;而演员上举手臂的部分同样被认为是数据的关键分割点。这表明深度学习算法正在识别更为复杂的"形态特征"。值得注意的是,在GunPoint数据集上所有算法均表现出高度一致的分类准确率这一事实并不能确定哪种分类器提取了最具区分度的时间序列片段;因此推测更大规模的数据集可能会提供更多关于机器学习模型可解释性的洞见。最后强调的是:形状单元变换分类器(Hills et al., 2014)是一种集合方法;然而这种方法并未阐明shapelets如何影响单个分类器的具体决策机制;而对于端到端式的深度学习架构,则可以直接利用类激活图来解析分类过程中的决策逻辑
肉类数据集
然而以往针对GunPoint的数据集进行的研究揭示了两模型均在局部化重要特征方面表现出色, 但这一研究未能充分揭示两者的区别: ResNet与FCN. 基于上述发现后, 我们选择在Meat数据集上对CAM方法应用到这两个模型中进行深入比较.
肉类常被用作食品光谱仪的数据集,在化学计量学领域中用于对食品种类进行区分。此任务在食品安全与质量控制方面具有重要应用价值。该数据集分为三个类别:鸡肉、猪肉及土耳其分别对应图中的类别1、2及3类.Al-Jowder等(1997)详细说明了如何利用具有衰减全反射(ATR)采样技术的傅立叶变换红外(FTIR)光谱从60个独立样本中提取数据
类似于GunPoint的数据集, 该数据集易于可视化; 同时它不含过于噪声的时间序列. 另一方面, 仅包含三个类别, 其可视化结果便于理解和分析. 比较而言, ResNet和FCN在Meat上的表现显著不同, 分别达到97%和83%的准确度.

在图中对比展示了FCN的CAM(左侧)与ResNet的CAM(右侧)。随后我们注意到,在突出显示的关键区域上ResNet的表现更为坚定。换句话说,在FCN的CAM中所呈现的区域更为平滑,并且包括青色、绿色以及黄色等区域;相比之下,在ResNet的CAM中则包含了更多的暗红色及蓝色子序列。这一现象可能解释了为何在该数据集上FCN的表现不及ResNet。此外,在图中c和e右下角的位置上分别标注了2级及3级高亮显示出来的红色子序列。通过视觉分析这部分时间序列的行为模式后发现其表现出明显的波动特征;因此该子序列被模型筛选出来并被排除在外;这进一步凸显了残差连接机制对特征提取的重要性
6.2多维尺度
我们推荐采用多变量尺度分析法(MDS),由Kruskal和Wish于1978年提出,并旨在通过分析不同类别的时间序列数据空间分布来提供一些洞见。该方法采用成对距离矩阵作为输入数据来源,并尝试最大限度地保持样本间的相对距离以便将每个样本映射到N维空间中,在测试集上的欧几里德距离计算结果随后构建相似性矩阵并应用MDS方法将其可视化为二维平面图。这种直接的方法假设欧氏距离能够有效地区分原始的时间序列数据与之配合时最近邻点的识别效果通常不十分理想。(Bagnall等, 2017)
此外,在本研究中我们推荐采用该MDS方法从网络学习中提取潜在表示用于时间序列可视化。一般而言,在深度神经网络架构中存在多个隐藏层,在这些隐藏层中我们可以提取出数据集的不同潜在表示。为了实现对类别特异潜在空间的可视化目的 我们选择将DNN模型中最靠近softmax分类器的那一层作为最终提取的对象 这一选择已被证实是类特定特征提取的有效途径(Yosinski等 2014)。基于此 我们决定仅对ResNet和FCN模型实施该方法有两个主要原因:一方面 当此类别的UCR/UEA数据集上的性能评估结果显示该方法达到了最高水平;另一方面 这两种模型结构均采用了全局平均池化GAP操作 从而确保了提取到的时间序列特征数量与原始输入的时间序列长度保持一致
为了更清晰地阐述这一过程,在深度学习模型中通常会对每个输入的时间序列进行处理:首先通过卷积操作生成一个多变量的时间序列;随后对这个多变量的时间序列应用GAP层操作,在时间维度上取均值后得到一个128维的向量;接着计算这些向量之间的Earth Mover's Distance (ED)作为衡量标准;最后我们采用MDS方法将这些距离映射到低维空间中,并将其最小化为Stress成本函数以便优化模型性能
下图展示了GunPoint数据集中的三个MDS图像:分别是(1)原始输入的时间序列(图a)、(2)基于GAP层的FCN学习到的潜在特征(图b),以及(3)基于ResNet的GAP层学习得到的潜在特征(图c)。从图a可以看出,在使用原始输入数据并将其投影至二维空间后,这两个类别无法通过线性分割区分。相反,在图b和c中,则通过在学习潜在表示的基础上应用MDS方法,能够较为容易地区分属于这两个类的时间序列集。值得注意的是,在两种不同的深度学习框架下——FCN和ResNet——均成功地将输入数据映射至线性可分的空间。因此,在这个特定的数据集上,两种模型的表现都非常出色,并且几乎达到了100%的准确率。

尽管GunPoint上的MDS可视化产生了有趣的结果[1]但它未能揭示FCN与ResNet之间的差异。于是我们转而分析另一个数据集其中两个模型的准确度相差约15%。如图所示Wine数据集展示了三个MDS图分别是(1)原始时间序列输入(图a)(2)来自GAP层的FCN学习潜在特征(图b)以及(3)来自ResNet的GAP层学习潜在特征(图c)。通过观察这些图形读者可以推断即使采用学习表示所有投影都无法实现线性可分性这一点从FCN与ResNet相对较低的精度中可见一目了然——它们分别达到58.7%和74.4%的精度水平。深入观察发现ResNet的学习隐藏表示(图c)相比FCN的学习表示更能清晰地区分两类数据这表明FCN的学习特征存在过多接近决策边界的样本而ResNet的学习特征则能够将样本进一步远离决策边界这种现象正是导致ResNet在Wine数据集上实现更高精度性能的原因

7结论
在本文中,我们进行了最大的TSN DNN实证研究。我们概述了TSC在多个领域的最新成功深度学习方法,并重点讨论了人类活动识别与睡眠阶段识别等具体应用领域的方法。在统一分类框架下阐述了DNN如何被系统性地划分为生成与判别模型两大类核心体系。我们在一个独特而创新的框架内对九个近期发表的端到端深度学习分类器进行了重新构建,并向研究社区进行了公开发布与分享。我们的实验结果表明,在完全卷积神经网络架构与深度残差网络架构的支持下可实现TSC领域的最前沿性能水平。此外,在分析模型特性时发现深度学习模型具有不可解释性的黑盒特征这一局限性问题,并提出了一种基于类激活图可视化工具来缓解此问题的有效方案。这种可视化方法不仅能够清晰展示输入时间序列的关键特征要素对特定类别识别所作出的重要贡献度信息,并且还为后续的研究工作提供了重要的理论参考依据
基于已开展的一系列实验测试可以看出,在时间序列分类领域的深度学习方法相较于计算机视觉与自然语言处理任务之间存在显著差异,在现有研究对于数据增强策略尚显不足的情况下,在未来的研究中应着重于通过系统性实验来探索并解决上述局限性问题。然而,在实际应用中发现,在现有的文献综述基础上还缺少对于不同领域特征工程方法的具体对比分析以及跨领域优化的可能性探讨。因此,在本项实证研究的基础上进一步扩展其应用范围时需要特别注意以下几点:第一点是在现有文献综述的基础上需要更加关注模型本身的准确率之外还需要考虑训练时间和测试时间的影响因素;第二点则是建议研究人员在未来的研究工作中应更加重视与其他标准化方法(如Z-score normalization及其变体)之间的相互作用效果评估工作以期达到更好的理论指导意义与实际应用效果结合的效果
总体而言,在数据挖掘存储库变得更加频繁的情况下,在注释数据中通过端到端的方式自动学习更为深入的体系结构后使得深度学习成为一个极具吸引力的方法。
总结和感悟
在综述性文章中进行系统性阅读与精读相结合的方式下,在线把握该领域的研究进展并能从中获得启发以完善自己的理论基础体系。然而,在我的研究方向——深度学习在故障诊断方面的应用中发现:单靠研读计算机领域最前沿的算法文献才能实现技术引进的效果;单纯追读本专业领域的核心论文以及跨学科领域的相关研究并不能显著提升个人创新能力;而这篇论文则从创新方法论和实验方案设计方面给了我极大的启发:建议读者深入探讨其中的关键技术难点以及创新点;具体细节请参见下文详细说明
在综述性文章中进行系统性阅读与精读相结合的方式下,
在线把握该领域的研究进展并能从中获得启发以完善自己的理论基础体系。
然而,
在我的研究方向——深度学习在故障诊断方面的应用中发现:
单靠研读计算机领域最前沿的算法文献才能实现技术引进的效果;
单纯追读本专业领域的核心论文以及跨学科领域的相关研究并不能显著提升个人创新能力;
而这篇论文则从创新方法论和实验方案设计方面给了我极大的启发:
建议读者深入探讨其中的关键技术难点以及创新点;
具体细节请参见下文详细说明。
Silva DF等(2018)通过剪裁无前途的配准来加快相似性搜索速度,在动态时间伸缩方法中实现了显著的性能提升。该研究发表于《数据挖掘与知识发现》期刊中
Bagnall A et al. (2017)探讨了时间序列分类的重要竞赛,并对其进行了全面综述及实证分析以评估最近算法的进步
Authors M. Längkvist, L. Karlsson, and A. Loutfi (2014) conducted an examination of unsupervised feature extraction and deep learning techniques for time-series analysis. Pattern Recognition Letters 42:11 – 24 ↩︎
- Cristian Borges Gamboa J (2017) Deep learning for time-series analysis. ArXiv ↩︎
Lines J, Bagnall A (2015) "基于弹性距离度量的时间序列分类方法:一个全面综述",《数据挖掘与知识发现》第29卷第3期第565-592页
Bagnall et al. (2017) conducted a famous time series classification competition: an assessment of recent advancements in data mining techniques. Data Mining and Knowledge Discovery 31(3):606–660 ↩︎
Bagnall等人在2016年提出了一种名为COTE的时间序列分类方法。该研究发表在《国际数据工程会议》上。这种方法基于变换型集成Ensemble模型,并在第十五届国际数据工程会议上发表论文。详细内容见第十五届国际数据工程会议论文集中的第1548至1549页。
Lines J, Taylor S, Bagnall A (2016) HIVE-COTE: 基于变换的集成方法形成的层次投票集体在时间序列分类中表现出显著效果. In the IEEE International Conference on Data Mining, pages 1041–1046
- LeCun Y, Bengio Y, Hinton G (2015) Deep learning techniques. The journal Nature publishes groundbreaking research in the field of artificial intelligence, featuring articles spanning pages 436–444 in volume 521. Lin S, Runger GC (2018) GCRNN: Group-constrained recurrent neural networks with convolutional structures. The IEEE Transactions on Neural Networks and Learning Systems journal features papers on these topics, spanning pages 1 to 10. ↩︎
Wang Z et al. (2017b) explore the application of deep neural networks in time series classification without relying on pre-existing models. The paper is presented at the International Joint Conference on Neural Networks, highlighting its significance in advancing the field through innovative methodologies.
Comprehending the principles of deep learning involves reevaluating the mechanisms of generalization. In proceedings of the International Conference on Learning Representations
- Cristian Borges Gamboa J (2017) Deep learning for time-series analysis. ArXiv ↩︎
Längkvist M, Karlsson L, Loutfi A (2014) A comprehensive analysis of unsupervised feature extraction and deep neural networks for temporal data analysis. Pattern Recognition Letters 42:11–24 ↩︎
- Ordóñez FJ, Roggen D (2016) Deep convolution-based and LSTM-based recurrent neural networks for multimodal wearable activity recognition. Sensors 16 ↩︎
Nweke HF, Teh YW, Al-garadi MA, Alo UR (2018) Machine learning algorithms for human activity recognition using mobile and wearable sensor networks: Current state and research challenges. Expert Systems with Applications 105:233 – 261 ↩︎
Geng Y and Luo X (2018) introduced cost-aware convolutional neural networks to address imbalanced time-series classification tasks.
该研究采用多尺度卷积神经网络进行时间序列分类。
-
Glorot X and Bengio Y (2010) Analyzing the challenges of training deep fully connected neural networks. In proceedings of the International Conference on Artificial Intelligence and Statistics, vol 9, pp 249–256
-
Wang Z, Yan W., Oates T. (2017b) 基于深度神经网络的时间序列分类研究:一项强基研究。In: International Joint Conference on Neural Networks (简称:IJCNN), pp 1578–1585](https://ieeexplore.ieee.org/document/7968439) ↩︎
这些作者(2017)
Ismail Fawaz H, Forestier G, Weber J, Idoumghar L, Muller PA (2018c). Transfer learning for time series classification. In the Proceedings of the IEEE International Conference on Big Data. ↩︎
Ismail Fawaz H, Forestier G, Weber J, Idoumghar L, Muller PA (2018c). Transfer learning for time series classification. In the Proceedings of the IEEE International Conference on Big Data. ↩︎
Zhou等人(2016)提出了一种方法用于学习深度特征以实现目标物体的定位,在IEEE计算机视觉与模式识别大会上发表于第Ⅱ卷的第4部分中。
