【读书笔记-数据挖掘概念与技术】数据立方体技术
基本概念:

基础单元:标准立方体的基础单元
• 集成单元:非标准立方体的基础单元
• 半物理化立方体:部分物化的基础形态
• 最小支持度(即最小支持度阀值)指的是部分物化的最小阈值(实际上相当于设定了一个范围)
∵冰山立方体仍有大量不感兴趣的单元需要计 算
**∴引入 ——闭覆盖——一个单元没有后代或者它的后代的度量值与其不同 **
法2仅针对少数维度进行预计算,这些方块构建了数据立方体的外层框架
- 计算的一般策略:四种优化技术
1. 排序、散列和分组
2. 同时聚集和缓存中间结果
3. 当存在多个子女方体时,由最小的子女聚集
4. 先验剪枝法
—————————————————————————————————————————————————————————————————————————————
数据立方体的计算方法
- 多路数组聚集

计算以2-D平面为例:
维的大小:A——40;B——400;C——4000
1. 扫描次序为1~64


2. 扫描次序为1,17,33,49,5,21,37,53


特点:
1. 数组可以直接寻址
将表格转换为数组形式后进行数据运算以计算立方体并将运算结果重新转回为表格的形式。(当然这并不意味着运算过程会缓慢)
3. 可能仅在具有相对较少维度的立方体上有效, 由于计算所需的方体数量随着维度呈指数级增长
- BUC(Bottom-Up Construction):从顶点方体向下计算稀疏冰山立方体
主要思想
- 首先计算整个数据立方体中的度量值参数,并按照各个维度依次展开划分
- 然后同时评估是否符合"iceberg condition"这一前提条件
- 对于不符合条件的部分进行剪枝处理
- 而符合条件的部分则继续向下一个维度展开递归搜索
- 计算流程:



特点:
1. 采用了分治策略,优点在于能够分担划分开销,减少不必要的计算消耗;
性能受韦德排序及失衡数据分布的影响较大,在实施时建议按照维基数递减的方式进行划分(具体包括优化方案如排序算法、哈希表和分组方法等)
3. 不能利用父子关系共享聚集计算,不像MultiWay;
eg2:



- Star-Cubing:使用动态星树结构计算冰山立方体
注:维的基数就是指这个属性的不同取值的个数
最小支持度min_sup(阀值):相同的取值至少出现多少次
概念
星节点:单个维在属性值p上的聚集不满足冰山条件(可用于剪枝)
主要思想
- 该系统通过融合top-down与bottom-up方法,并结合多路数据聚合的同时处理方式以及借鉴BUC算法中采用的先验知识剪枝方法。
- 该系统基于星型树的数据结构设计了一种存储方案;其中关键在于引入了共享维度这一概念;当某个维度的聚类结果不符合冰山模型的要求时,在该维度下的所有子项同样无法满足这一模型的要求。







为快速高维OLAP预计算壳片段
一个问题:
为什么会对数据立方体预计算感兴趣?
因为数据立方体有利于多维数据空间的快速OLAP
尽管冰山立方体可以在较短时间内为我们提供答案,但这种解决方案并非最终目标.它并非是问题的最终解决方法.
so,一个可能得解就是 计算一个很薄的立方体外壳
**
**
又因为立方体外壳有两个缺点:
- 不支持高维OLAP
- 不支持下钻
so,我们 只计算它的一部分或片段
**
**
**
**
外壳片段方法包含两个核心算法:第一个算法生成外部片段立方体;第二个算法利用立方体片段进行查询处理。该方法可应用于高维数据库环境,并且能够高效地进行在线计算小规模立方体。它基于信息检索技术以及在Web系统中广泛采用的倒排索引结构进行设计。
———————————————————————————————————————————————————————————————————————
采用数据立方体技术来解决复杂查询问题(
基本数据立方体已扩展至涵盖多种复杂数据类型及新兴应用场景。例如,在地理信息系统中的空间数据分析与存储方案中涉及的空间数据立方体,在多媒体信息处理领域中被广泛采用的多媒体数据分析与表示方法涉及的多媒体数据立方体;其中RFID数据分析系统通过压缩射频(RFID)信号并进行多层次分析以提高效率的方法涉及的RFID数据分析系统。此外,在多维文本数据库(包括结构属性和叙事文本属性)中分别开发了向量空间模型用于检索和生成语言模型用于生成的方法所形成的文本数据分析体系。
-
抽样立方体:样本数据上基于OLAP的挖掘
-
在数据收集过程中,默认会聚焦于目标数据的一个子集以节省资源,则所获得的数据即为样本数据。
-
当尝试将传统OLAP技术应用于样本数据时会面临两个主要挑战:首先,在多维视角下样本数据往往呈现极度稀疏特征。当用户在数据层面上进行钻取操作时极易陷入仅获取少量样本或无样本结果的困境基于小样本的数据推断总体表现可能产生误导性结论:一个离群值或微小偏差都可能显著扭曲最终结果因此统计学方法被用来提供可靠性度量如置信水平等指标以评估总体查询结果的质量然而传统OLAP系统并未配备此类功能。
-
抽样立方体是一种专为存储样本数据及其多维聚合结果而设计的数据结构它支持在样本空间上执行OLAP操作并能计算置信区间作为多维查询质量评估的标准置信区间用于量化估计结果的可靠性例如根据统计学原理可表示为"在95%的概率下实际均值变化范围在±两个标准差之间"其中置信水平为95%置信区间的计算方法可在《数据挖掘概念与技术》一书中找到详细说明。
-
当置信区间较大时其可靠度值得怀疑影响其大小的因素包括样本方差及样本容量:较高的单元方差意味着所选单元存在较大差异更好的解决方案可能是在查询单元的基础上向更细致的层次钻取;较低的样本容量可能导致较大的置信区间为了应对小样本问题最理想的方法是获取更多样本来填充立方体但现有数据中往往无法精确匹配查询单元因此可以通过扩展邻近单元的数据来提升回答可靠性为此提出了两种扩展方法:
- 方体内扩展:在同一立方体内包含与查询单元相邻的所有邻近单元形成新的样本集以提高回答结果的可信度而不改变原始查询含义
- 方体间扩展:通过聚合到更高层次的父立方体来获取邻近信息
排序立方体:有效支持top-k查询的结果返回
* 数据立方体不仅提升了多维联机分析处理的效果,并且显著改善了搜索与数据挖掘的表现。根据用户指定的最佳化条件及排序标准,top-k查询(或排序查询)能够精准提取并返回最优质K个结果作为查询响应对象,并避免了传统方法对海量非区分性结果进行逐一列举的问题。按排定的标准排序返回的结果使得最优结果集中于顶端位置。通常情况下,默认条件由选择条件与排序函数两部分共同构成。
* OLAP离线预处理是实现多维联机分析处理的关键技术手段之一。
* 半离线预处理与半联机计算结合是一种自然合理的折中方案。
* 排序立方体的基本原理在于物化选择属性集上的数据结构模型。
- 数据立方体空间中的多维数据分析
-
预测立方体:立方体空间中的预测挖掘
-
通过深入揭示数据中的多维结构及其变化特征,多维数据挖掘能够有效整合不同维度的信息并识别出具有显著意义的知识。
-
预测立方体是一种独特的立方体结构设计,在其框架下系统构建并存储了针对特定业务场景的数据预测模型,并通过OLAP技术实现高效的数据查询与分析功能。这种技术方案是当前多维数据分析领域的重要研究范例。
-
在数据立方体中构建每个单元值时,默认会基于该单元所涵盖的数据子集进行必要的计算与聚合处理;而预测立方体则在此基础上进一步发展,在每个单元值的位置上存储的是通过对建立在相应数据子集上的预测模型求值计算的结果。这种设计实现了对特定业务场景中潜在趋势的有效捕捉与分析能力。
-
多维数据立方体模型:多层次复杂聚合操作
- 传统的数据立方体通常基于单一维度进行简单聚合。
- 多维数据立方体通过多特征构建实现复杂的查询处理能力。其查询结果依赖于不同粒度层次上的多重聚合分组组合。
- 该模型提供了高度灵活的配置机制,支持基于OLAP的操作分析和数据挖掘功能。
- 其计算过程受所采用的数据聚合函数类型的影响。
基于异常检测、采用发现驱动策略的空间立方体探查方法。
从用户角度来看,在一个数据立方体中可能存在大量独立的小立方体单元(或称为聚集单元),每个单元可能包含大量(甚至聚集)的数据条目。随着现代数据分析需求的增长,在用户界面层面而言,在这种规模的数据下浏览变得成为一个负担。因此有必要开发一些辅助工具来帮助用户有效地探索和挖掘数据立方体中存在的巨大潜在聚集空间。
异常指示符是一种预先计算的数据指标,在各个层次的聚集维度上用于指导用户的数据分析过程。一个异常是指在一个数据单元中出现显著偏离预期值的情况。该模型通过在每个单元所属的所有维度上考虑度量值的变化和分布模式来识别出存在于数据立方体所有层次分组中的异常情况。
