Advertisement

时序数据库关键技术综述

阅读量:
图片

摘要

图片

工业物联网技术的发展带动了各类设备与传感器的普及,在网络中产生了海量的时间序列数据(统称为'时序数据')。这些数据呈现出爆发式的增长态势,在数据库管理系统中带来了前所未有的挑战:包括持续高吞吐量的数据采集能力、低延迟的多维度数据分析需求、高性能的时间序列索引构建以及低成本的数据存储方案设计等。近年来时序数据库技术成为研究热点领域之一,并已取得诸多突破性进展:一些学者开始深入探讨持久化存储、查询优化、计算能力提升以及索引技术这几个关键领域的问题,并已在多个实际应用领域取得显著成果。然而目前有关时序数据库的技术综述大多侧重于现有功能体系的技术对比与性能评估,并未对系统的关键核心技术展开深入解析与方法创新;此外这些综述文章多集中关注早期关键技术的研究与发展现状,在现代先进时序数据库核心技术体系构建方面仍显不足

本文系统性地展开了学术界时序数据存储机制及工业界时序数据库应用的研究工作,并归纳总结出以下4类核心技术要素:其一为时间序列索引优化方案;其二为内存节点组织架构设计;其三为高吞吐量数据采集与低延迟查询处理能力;其四为海量历史数据高效存储与低成本管理策略. 同时进一步归纳整理了现有时序数据库评测指标体系. 在此基础上, 展望未来新兴技术可能带来的创新突破方向.

图片

内容简介

图片

概述了相关的综述性工作以及背景知识,并探讨了时序数据库在管理工业物联网中的海量时序数据所面临的主要挑战.

基于不同的存储架构划分, 将其划分为四大类别. 并列举了各类系统的代表实例, 分析对比了各类存储架构的数据模型及处理时序数据的优势与不足.

3.重点研究时序数据库的4类关键技术.

4.本文就未来时序数据库关键技术的发展方向展开了探讨,主要包括基于工作负载自适应性的时序数据存储方案,针对新型硬件架构进行优化设计的时序数据存储方法以及采用云原生技术和人工智能驱动的创新性存储策略.

亮点图文

图片

时间序列数据是由一系列按时间顺序排列的数据点组成。这些观测通常来自同一来源,并在固定的时间间隔内进行连续测量。这些观测用于追踪随着时间推移而发生的变动情况[21]。
其中包含四个主要组成部分:度量指标(metric)、标签集(tag set)、测量字段集(field set)以及时间戳(timestamp)共同构成了。
以气象监测为例说明:
度量指标包括每个气象气球需要采集的各种气象(weather)参数;
每个气象气球有2个静态属性:位置(location)和气球ID;
每分钟会采集温度(temp, temperature)和湿度(humidity)两个气象参数;
具体信息如表1所示。

图片

LSM-Tree 的核心理念在于将小规模的随机数据转换为大规模的有序数据,并充分挖掘磁盘顺序存储的优势。于2011年时Google首次开源基于LSM-Tree设计的键值型数据库LevelDB[36]这一创新性技术,在数据库领域掀起了一股新的应用热潮。该系统的具体架构可见图1

图片

时序数据库可作为应对海量时序数据高效管理的重要方案。在工业物联网背景下处理海量时间序列数据时,时序数据库将面临三项主要挑战,请参阅表2。这三个挑战包括:第一项是对复杂时间序列元数据进行高效管理;第二项是对工业物联网特有的工作负载进行适应性处理;第三项是通过有效降低成本来实现大规模历史数据存储。

图片

本文基于存储架构将时序数据库进行了系统性划分, 各类型时序数据库的存储架构配置如图2所示. 根据存储架构的不同特性, 时序数据库主要可分为四大类: 基于内存的实时计算平台; 基于传统关系型数据库的实时查询引擎; 基于键值对存储方案的设计框架; 面向对象式的实时处理引擎. 表3详细列出了各类系统的代表实例及其数据组织模式, 并系统地评估了各类时序数据读写性能指标及历史数据压缩效率等级, 其中每个评估维度均采用高、中、低三个等级进行量化刻画.

图片
图片

从timeseries data的工作负载特征中可以通过提炼的方式获得4个关键类型:包括时间序列索引优化方法、内存数据组织策略以及高吞吐量数据采集与低延迟检索方法等;表4详细列出了各类核心技术的具体内容.

图片

ByteSeries开发了一种压缩倒排索引(compressed inverted index),如图3所示。该技术能够有效地压缩元数据。其占用内存减少了60%,同时维持了高维查询的有效性。

图片

ByteSeries将每个时间序列的数据点嵌入到内存中,并且为了防止数据压缩带来的开销影响数据吞吐量和采集速率, 采用分段内存策略(segmented memory approach)以缓解这种影响. 分段内存结构如图4所示.

图片

在实际应用中,在一个实体上进行多次测量往往会被同时采集;这些测量结果往往具有相同的时序数据集。IoTDB提出了一种对齐时间序列的方法,并将其定义为一个完整的集合。如图5所示,在内存管理过程中,通过构建相应的对齐时间序列集合后,在内存中的每个时序数据的时间戳仅存储一次。这种方法显著减少了内存占用的空间需求

图片

在LSM-Tree架构中,每一层都包含至少一组按照key值有序排列的文件;这些文件之间所在的key范围互不重叠;这些文件集合被称作一个sorted run。根据每一层所拥有的sorted run数量的不同,在合并策略上LSM-Tree主要分为两种类型:一种是层次式合并(Leveled),另一种是分层式合并(Tiered)。

图片

并非所有时序数据都需要永久存储。不同场景下对数据生命周期的要求存在差异,在某个时间段内不再使用的时序信息应当迅速删除已过期的数据。InfluxDB采用保留策略建立多组数据片段,每个分片组专门存储一个固定时间段内的信息记录;随着时间戳记录的时序数据会被分配到相应的分片组中,在某个时间段内不再使用的特定分片会触发其生存期满事件并被移除以释放硬件资源。图7展示了具有3个完整周期且每个分片持续时间为1天的保留策略示例。

图片

以InfluxDB与TimescaleDB部分关键指标的对比为例,在图8中展示了这4类关键技术对时序数据库性能的影响情况. 图8为TimescaleDB官方发布的一份关于其与InfluxDB在读写性能、查询效率及磁盘占用方面的基准测试比较报告.

图片

TS-Benchmark侧重于考察时序数据库的数据采集与数据处理效率.表5展示了上述各时序数据库评测基准的详细对比分析.

图片
图片

未来发展方向与预测

随着物联网快速发展的推动, 时序数据库已进入新的发展阶段. 其中值得注意的是, 在过去五年中出现的新型时序数据库数量显著增加. 为了解决工业物联网处理海量时间序列数据的技术难题, 在过去五年中提出了多种解决方案. 通过分析这些解决方案的特性和发展趋势, 我们对未来时序列数据库的关键技术发展进行了初步探索.

1 面向工作负载的自适应时序数据存储

研发人员在未来首要任务是不断优化性能。然而,在实际应用中,任何一种存储方案都无法同时兼顾最优的写入和读取性能。不同存储方案的表现往往与其所面对的实际工作负载密切相关。在实际应用中,当工作负载发生变动时,时序数据库的性能可能会出现显著波动。

2 面向新硬件的时序数据存储

面向新型硬件优化方案的时间序列数据存储技术正被看作是未来发展的新方向. 在消费级设备上, 以闪存为基础的SSD已全面取代传统的硬盘驱动单元(HDD), 而且目前SSD在个人电脑市场的占有率已经接近100%, 随着闪存单价持续降低, 它在大型数据中心中的占比率持续攀升.

3 Cloud+AI

工业物联网的快速发展依赖于云计算技术的发展支撑,在这一过程中越来越多的企业纷纷将数据中心迁移至云端设施,并根据需求选择公共云端或私有云端服务

图片

总结

本综述对过去十年中时序数据库的关键技术进行了系统性的梳理与分析. 本文深入探讨了工业物联网环境下时序数据库面临的主要挑战, 包括: 1)如何高效管理复杂的时间序列属性信息; 2)应对工业物联网场景下的特定工作负载; 3)实现海量时序数据存储成本的有效控制. 在上述三个核心技术难点的基础上, 文章首先对现有时序数据库的技术体系进行了分类与对比研究, 然后重点解析了以下四类关键技术: 1)基于时间序列的索引优化方案; 2)内存中数据组织方法; 3)高吞吐量的数据采集与低延迟查询技术; 4)海量历史数据的高效存储策略. 针对每一类核心技术, 文章详细归纳了其核心算法原理, 并对其性能特点进行了深入探讨. 这些核心技术体系直接决定了时序数据库在处理大规模复杂工业场景下的实时性表现, 包括: 数据处理吞吐量限制、查询响应速度瓶颈以及关键业务指标计算效率等. 这些研究成果不仅有助于提升工业物联网系统的实时性水平, 更能有效增强系统的安全防护能力, 同时为优化制造流程提供了重要的理论支撑. 因此, 这些关键技术体系是数据库设计者在构建工业物联网大数据平台时必须重点考虑的核心要素.

本文还对时序数据库的主要评测基准进行了深入阐述,并列举了TSBS、iot-benchmark以及TPCx-IoT等典型实例;此外,在详细阐述这些评测基准的基础上还着重分析了它们在数据生成特性、运行流程以及评价指标等方面的显著特征. 最终综上所述, 本文不仅对现有技术进行了总结, 还对未来相关研究方向提出了若干有参考价值的观点与建议.

通过对相关调研与研究发现,工业物联网所产生的时间序列数据呈现出持续增长的趋势,与此同时,该领域所面临的挑战也呈现快速增长态势.伴随时间序列数据规模不断扩大,现有技术体系已难以应对这种增长,因此亟需针对新兴领域如智能 manufacturing、智慧城市等所涉及的新环境、新场景以及新型硬件设备等,开发新型的时间序列数据库关键技术体系.

全部评论 (0)

还没有任何评论哟~