【读书笔记-数据挖掘概念与技术】高级模式挖掘
相较于频繁进行的频繁挖掘而言,在进行模式挖掘是一种更为普遍的方法。由于它不仅包含稀有现象还包括反向现象。但当没有歧义时**,** 两者可以互换地使用。
模式挖掘路线图

分类
- 基础架构
 - 涉及的抽象层次
 - 覆盖的空间维度
 - 处理的数据类型
 - 遵循的选择性原则
 - 分析的数据属性及其特征
 
多层、多维空间中的模式挖掘
- 挖掘多层关联规则
 
对于所有层使用一致的最小支持度——一致支持度
在较低层使用递减的最小支持度——递减支持度
使用基于项或基于分组的最小支持度——基于分组的支持度

- 挖掘多维关联规则
 
使用量化属性的静态离散化挖掘多维关联规则
- 挖掘量化关联规则
 
1.数据立方体方法
2.基于聚类的方法
3.解释异常行为的统计学方法
- 挖掘稀有模式和负模式
 
基于约束的频繁模式挖掘
- 元规则制导的挖掘
 - 基于约束的模式产生:模式空间剪枝和数据空间剪枝
 
1.用模式剪枝约束对模式空间剪枝
模式剪枝约束分为五类:
反向单调性满足:对于某个项集若违反了规则约束,则所有包含它的超集都不会满足该约束条件
单调的:如果一个项集满足这个规则约束,则它的所有超集也满足。
简明扼要地说,在这种情况下,只需进行穷举遍历以确保全部满足该约束条件的集合,并非必须逐个集合进行反复验证。
可转换性的条件:虽然不属于前三类中任何一类值的变化情况的变化模式来表征各变量之间
不可转变的:大部分都属于以上四类。
2.用数据剪枝约束对数据空间剪枝
挖掘高维数据和巨型模式
模式融合
核心观点:结合有限个简短频繁出现的子模式来生成超级大尺寸的目标结构。具体而言,在构建超级大尺寸目标结构时,默认策略是采用有限宽度遍历树的方法,并仅利用固定规模候选池中的特定样式作为后续搜索起点。这种机制能提供一个接近真实解的有效途径,并能够识别出绝大多数典型超级结构。
步骤:1. 池初始化:一个短长度(长度不超过3)频繁模式的完全集。
基于迭代的模式融合机制中,在当前池体中随机选择k个初始种子节点。对于每一个被选中的种子节点,在其支撑半径T范围内搜索并收集所有满足条件的子图结构(即直径不超过T的所有子图),随后将这些子图结构进行整合形成新的超级模组集合。随着迭代次数增加,在每次迭代过程中各超级模组的支持区域逐渐缩小直至收敛停止
模式融合合并打魔石的小的子模式,而不是用单个项增量地扩展模式。
核模式
挖掘压缩或近似模式
基于聚类的技术:利用有效的相似度量,在数据集中将具有较高相似性的对象归并至同一个簇中;通过从每个簇中选择具有代表性的对象作为特征,在此过程中生成频繁模式集合的一个紧凑表示形式。
模式距离:闭模式之间的距离度量。包含模式的支持度信息。
感知冗余度下的top-k模式:由k个典型模式构成的小群体具有较低冗余度。通过优化算法减少返回结果中的模式数量的方法。
闭模式:频繁模式集的无损压缩
极大模式:有损压缩
模式挖掘的应用
1). 作为前期处理工作的一部分,在进行数据分析之前执行噪声过滤操作以确保数据质量
2). 识别或揭示潜在的固有组织模式
3). 基于模式的分类
4). 高维空间中子空间的有效聚类
5). 对时间空间、序列、图像、视频数据进行分析
6). 序列与结构数据的分析,如图、树、子序列和网络分析
7). 作为基本的索引结构
8). 推荐系统
