【数据挖掘笔记七】高级模式挖掘
7.高级模式挖掘
'模式挖掘'在概念上比'频繁模式挖掘'更为普遍,并不仅包括稀有模式和负模式。
7.1 模式挖掘:一个路线图
模式挖掘的研究关注三个方面:所挖掘的模式类型、挖掘方法和应用。
模式挖掘研究的一般路线图:

7.2 多层、多维空间中的模式挖掘
多层次涵盖多个抽象领域;多元包含多个维度或谓词;定量涵盖其数值属性间的有序关系;负面模式体现项之间的负相关关系
1)挖掘多层关联规则
基于多个抽象层次的数据上生成的关联规则被定义为多层关联规则。在支持度-置信度框架下,通过系统性地运用概念分层方法,可以有效地提取多层关联规则。通常情况下,可以从顶层概念层次开始逐步深入至更具体的次层次,在每个层次上进行数据计数和频繁项集的计算,直至无法继续发现新的频繁项集为止。
2)挖掘多维关联规则
涉及两个或多个维度及相关的 predicate 的 association 模式被称为 multidimensional association 模式(multidimensional association rule)。当多个 predicate 在模式中各自独立使用时,则称该模式为 non-repeating predicate 模式。non-repeating predicate 模式通常被称为 dimension 间的关系模式(multidimensional association rule)。针对包含同一 dimension 多次出现的情况进行分析得到的关系称为 mixed-dimension 关系(mixed-dimensional association rule)
挖掘多维关联规则的技术分为两种方法:
第一类方法采用预先设定的概念层次对量化属性进行离散化处理,并被称作基于量化静态离散化的多维关联规则挖掘方案
第二类方法,在基于数据的分布情况下将量化属性划分为区间或归入类别中,则被称为动态量化关联规则的方法。
K-谓词集是包含k个合取谓词的集合。
3)挖掘量化关联规则
该量化关联规则可通过对数据立方体进行挖掘获取,在多维空间中存储和积累相关信息,并可评估其支持度与置信度
基于聚类的方法构建量化关联规则模型,在具有较高密集度的关键属性区域中容易发现这类有趣且稳定的频繁模式或关联规则;通过层次化的方式进行自顶向下和自底向上的聚类分析能够有效发现这些量化规律
使用统计学理论发现异常行为,使用统计检验证实规则的有效性。
4)挖掘稀有模式和负模式
有趣之处不仅限于常见数据项集合(Frequent Itemsets),还可能涉及罕见数据项集合(Rare Itemsets)或其他复杂关系的表现。
7.3 基于约束的频繁模式挖掘
基于约束的挖掘包括:
1)知识类型约束:指定待挖掘的知识类型,如关联、相关、分类或聚类。
2)数据约束:指定任务相关的数据集。
3)层次约束:定义用于数据挖掘的数据维度或属性集合,并确定概念分层结构中的层级划分。
4)兴趣度约束:指定规则兴趣度的统计度量阈值,如支持度、置信度和相关性。
5)规则约束:明确要挖掘的规则形式或条件。这种约束通常以元规则的形式进行规范,并且可以在前件或后件中体现谓词的数量限制或属性关系。
基于约束的数据挖掘方法能够支持用户进行交互式的探索和分析过程。元规则允许用户明确表达他们感兴趣的具体规则语法形式。这些规则的形式能够作为约束条件使用,并能有效提升数据挖掘效率。元规则可以根据分析者的经验和预期以及对数据的理解而生成;同时,在某些情况下也可以由数据库的设计模式自动生成。
通常情况下, 一种有效的频繁模式挖掘方法可采用两种主要策略对其搜索空间进行修剪: 包括对模式搜索空间的修剪以及对数据搜索空间的修剪。
7.4 挖掘高维数据和巨型模式
搜索空间随着维度呈指数级扩张,在应对策略方面可采取以下两种途径:第一种途径基于垂直数据架构,并致力于优化扩展模式生成策略;针对那些拥有高维度但样本数量有限的数据集进行高效处理。第二种途径则聚焦于探索多维度模式融合的挖掘技术,并以发现大规模复杂模式为目标
一种基于模式融合的数据挖掘方法能够通过结合少量简短的频繁模式生成超级候选模式在搜索空间中跳跃式探索从而避免陷入广度优先搜索和深度优先搜索通常会遇到的问题最终能够获得一个相当精确地涵盖所有巨型频繁模式的好近似解
该方法的目标是生成巨型模式的近似解;为此必须引入一种质量评估机制,并将其定义为核模式;其包含两个主要步骤:第一阶段涉及基于层次化特征提取和降维处理的过程,并通过自适应权重分配来优化信息整合;第二阶段则采用多层感知机(MLP)来建立非线性映射关系。
1)初始化阶段:在模式融合假设下,存在一个由所有短长度频繁模式构成的初始数据库集合(即初始池)。该初始池可通过现有有效的数据挖掘算法进行提取。
2)基于迭代机制的模式整合:该方法采用参数K进行配置,其中K表示期望提取的最大特征组合数量。整合流程采用迭代方式展开,在每一次迭代过程中从当前候选特征集合中随机选取K个初始样本(种子),针对每一个种子样本提取与其目标值高度匹配的所有特征组合。随后将所有匹配到目标值的特征组合进行集成汇总形成超级特征集合。这些超级特征集合将构成新的候选池,在这一过程中由于每个超级特征所覆盖的基础特征逐步趋于稳定从而使得整个整合过程最终达到收敛状态
7.5 挖掘压缩或近似模式
高频数据 mining 的主要困难来自于所得出的结果数量过于庞大。为了缩减由高频数据 mining 所产生的大规模结果集的同时保持高质量的结果, 可以采用一种高效的方法来生成一个紧凑的形式化表示以涵盖所有重要的关联规则关系。通过采用 Top-k 最频繁闭项集的方法来聚焦于前 k 项关联规则能够显著提升效率
1)通过模式聚类挖掘压缩模式
基于模式的数据聚类方法必须首先确定一个有效的相似性度量指标。采用该度量进行数据分组。选取并输出一个代表型数据对象。由于闭合频繁项集完全保留了原始数据中的所有信息。这表明在闭合频繁项集的基础上寻找代表性对象是切实可行的。
2)提取感知冗余的top-k模式
提取高频top-k模式是一种降低模式返回数量策略。通过感知实现对显著性和冗余性的平衡调节,并在此基础上定义两个模式之间的相互关系。
7.6 模式探索和应用
基于频繁模式的高质量语义标注能够提供额外的信息以促进对数据特性的理解。其中构建成功且具有可靠性的数据上下文环境是其关键因素。语义模式注解的基本任务是:
1)选择语境单元,并多每个单元设计强度权重,对频繁模式的语境建模;
2)为两个模式的语境、一个事务和一个模式的语境设计相似性度量;
首先识别给定数据中的常见模式;其次分别获取其关键指示符、事务代表以及语义相关模式;最后完成注解信息的构建工作。
在大数据应用领域中,数据模式分析作为前期处理步骤被广泛采用,在进行噪声过滤与数据清洗方面展现出显著成效。该方法不仅有助于识别潜在的组织结构与簇体分布特征,在高维空间中也能实现高维子空间中的有效聚类目标。对于涉及时间信息的空间数据分析以及复杂多模态数据(包括图像、视频等)的研究而言,“模式分析法”的适用性同样不容小觑。“序列与结构化数据分析”也为其重要应用场景之一;例如通过构建基于树形图(tree)、图(graph)、子序列(subsequence)以及网络(network)等复杂模型来进行深入研究。“频繁项集及有别征判断集”的提取能够作为核心索引机制,在大规模复杂结构化数据库与网络系统查询效率提升方面发挥着关键作用;同时这些项集也可被用来开发推荐系统,在发现顾客行为特征及分类模型构建方面具有重要价值。“针对高效计算算法的设计与可扩展性优化方案的研究不仅能够提升理论层面的理解深度,在实际工程应用中同样具有重要意义。”
7.7 小结
除了探索基本频繁项集与相关性之外,在数据挖掘领域还可以深入研究更为复杂的高级数据结构与关系形式。这包括多层次关联与多维度关联、定量化的关联规则以及少见事件与反向事件(罕见模式及其反向模式)。此外还需要关注高维度的数据结构以及压缩或近似表示的技术。
2)多层关联涵盖多个抽象层次的数据,在实际应用中还可以采用多种最小支持度阈值进行挖掘。多维关联包含多个维度,在技术实现上存在差异性。量化关联规则关注的是量化属性的表现形式,在实际操作中可结合多种分析方法进行研究;离散化、聚类以及用于分析异常行为的统计方法能够整合到模式挖掘过程中
罕见于实践中但令人着迷的稀有模式。负模式是由其成员表现出负相关行为所形成的特定类型。在定义时需谨慎,并考虑到零不变性特性。通常会凸显数据的异常行为,并具有一定的趣味性。
4)以基于约束的挖掘策略为基础,能够指导挖掘过程以提取符合用户直觉或满足特定约束条件的模式。这些主要包含模式剪枝约束和数据剪枝约束的性质有单调性、反单调性、数据反单调性和简洁性。
多维数据空间中的特定规则发现技术,在面对维度显著高而数据稀疏性明显的问题时(如微阵列数据),采用基于逐行扫描机制的增量式处理策略;而对于超大规模复杂数据中潜在规律分析,则采用结合多种技术手段的方法。
为了缩减挖掘结果中的pattern数量, 可以采用压缩pattern或者approximate pattern的方式进行替代. 其中, 压缩pattern是基于聚类原理建立具有代表性的数据模型来进行发现; 而approximate pattern则是通过提取高度冗余性(k个代表性data集合)来进行建模, 这样不仅能够提高效率, 还能保证结果的质量.
第7点指出可以通过生成语义说明来辅助用户掌握发现的频繁模式的意义。这些说明类似于词典,在其中每个项都提供了相关的语义信息,并包括用于指示上下文背景的关键提示、具有代表性实例以及与该项意义最接近的相关模式。
8)频繁模式挖掘在多个领域中表现出显著的应用潜力,并非局限于单一的技术手段;它不仅包括基于模式的数据清洗(数据清理),还包括基于模式的分类、聚类以及识别离群点或异常现象(分类、聚类、离群点或异常分析)。
