Querying and Mining of Time Series Data: Experimental Comparison of Representations and Distance Mea
Querying and Mining of Time Series Data: Experimental Comparison of Representations and Distance Measures (VLDB 2008)
在过去的十年中,人们对处理查询和挖掘时间序列数据的应用程序的兴趣极大地增长。针对时间序列引入了许多降维和相似度量的表示方法。每一部介绍特定方法的作品都提出了具体的主张,除了偶尔的理论证明之外,还提供了定量的实验观察。然而,在大多数情况下,这些实验的比较方面过于狭隘地集中于证明所提出的方法比以前介绍的一些方法的好处。为了提供全面的验证,我们进行了大量的时间序列实验,重新实现了8种不同的表示方法和9种相似度量及其变体,并在来自各种应用领域的38个时间序列数据集上测试了它们的有效性。在这篇论文中,我们概述了这些不同的技术,并就其有效性提出了我们的比较实验结果。我们的实验为现有的一些成果提供了统一的验证,在某些情况下,表明文献中的某些主张可能过于乐观。
Representation Methods for Time Series

Similarity Measures for Time Series
CONCLUSION & FUTUREWORK
1. 不同的时间序列表示方法在不同的数据集上的索引效果差异很小。
2. 对于时间序列分类,随着训练集规模的增大,弹性测度的精度收敛于欧氏距离的精度。然而,在小数据集上,弹性测度(如DTW, LCSS, EDR和ERP等)比欧氏距离和其他锁步长测度(如L∞范数,DISSIM)的精度要高得多。
3.为弹性度量(如DTW和LCSS)约束弯曲窗口大小,可以减少计算成本并实现有效的下界,同时产生相同甚至更好的精度。
4. 基于编辑距离的相似性度量方法,如LCSS, EDR和ERP,其准确性非常接近具有40年历史的DTW技术。在我们的实验中,只有EDR可能比DTW略好。
- 几种新型的相似性度量方法,如TQuEST和SpADe,其准确性普遍低于弹性相似性度量。
6. 如果相似性度量对任务来说不够准确,那么获取更多的训练数据真的很有帮助。
7. 如果无法获得更多的数据,那么尝试其他方法可能会有所帮助,但是,必须非常小心以避免过拟合。
