数据挖掘之关联规则
-
被广泛应用于数据挖掘领域的机器学习方法主要包含参数化方法和非参数化方法,在处理密度估计、分类或回归问题时的参数化方法假设最终模型在整个输入空间上具有有效性。
-
在回归分析中建立线性模型后将其应用于未来所有输入样本而在分类问题中则假设所有样本(包括训练样本与测试样本)均源自同一密度分布这样建立起来的模型将对整个n维样本空间表现出良好的全局适用性。
-
参数化方法的优点在于通过少量参数简化了建模过程但其主要缺点在于初始假设往往无法满足实际问题的需求导致建模误差较大而相比之下非参数估计仅基于输入之间的局部关系进行建模并未预先设定任何特定形式的支持度即所谓的项集大小决定了其相关性并因此能够捕捉到数据中的局部模式特性。
-
关联规则发现作为数据挖掘的重要技术和无监督学习系统中的核心算法被广泛应用于发现数据中的局部模式研究这种关联关系的方法不仅能够揭示事务之间的内在联系还能够帮助决策者优化业务流程提升服务质量。
-
购物篮分析是一项研究顾客购买行为的重要数据分析任务它通过分析顾客在同一时间购买的商品集合(即购物篮)来揭示消费者的行为模式并进一步优化商品陈列布局与促销策略其中频繁项集的支持度即其在事务数据库中出现的概率必须超过预设阈值才能被视为有意义的模式信息
-
为什么寻找频繁项集是一个非常重要的问题?
首先, 客户事务的数量可能会显著增加, 通常无法完全放入内存中. 其次, 频繁项集的潜在数量会随着项目数的变化而呈现指数级增长趋势. 实际上其具体数量远低于预期水平. 因此, 该算法具有良好的扩展性特征. 并且能够有效避免不必要的非频繁项目筛选过程 -
挖掘关联规则的问题可分为两个阶段: A 发现大项集,即事务支持度s大于预定的最小阈值的项集 B 使用大项集来生成数据库中置信度c大于预定的最小阈值的关联规则
-
Apriori算法
Apriori 算法利用几次的迭代来计算数据库中的频繁项集,第i次迭代计算出所有频繁i-项集(包含i个元素),每次迭代有两步; 产生候选集,计算和选择候选集
根据第一次迭代获得的非频繁项集,Apriori算法除去这些非频繁项集,来减少候选项集的数量,这种去除过程的原理在于:如果一个项集是频繁的,那么它的所有子集都是频繁的
9.从频繁项集中得到关联规则
在第一阶段使用Apriori算法或其他一些类似算法建立的所有频繁i-项集的基础上,来发现关联规则,计算规则的置信度,置信度c大于给定阈值的规则就是强关联规则
并非所有提取出的重要关联规则(满足预设的支持度s和置信度c)都会具有实际意义或会被广泛应用。
为了提高Apriori算法的执行效率,在面对日益庞大的数据量时需要设计更为高效的方法来挖掘频繁项集。
该算法在扫描数据库时所需的时间主要取决于最大频繁项集中项的数量。
为了实现这一目标,我们采用基于散列技术、分区策略、抽样方法以及垂直数据存储等手段。
具体优化措施包括减少数据库扫描次数、降低每次扫描所需的候选项集规模,并考虑两者的结合应用以进一步提升效率。
基于分区的方法仅需对事务数据库执行两次遍历即可完成任务。具体而言, 数据库被划分为若干个互不重叠的部分, 每一部分均可独立存储于内存空间内。在第一次遍历时, 算法逐个读取各个部分的数据并在此范围内计算出局部频繁项目集;而在第二次遍历过程中, 算法则统计所有局部频繁项目在其整体数据库中的支持度值。对于那些仅能在全局范围内确定其频次的应用场景而言, 在多次数据挖掘后获取顾客购买行为记录的过程中, 数据挖掘的速度往往比最终结果的质量更加重要
当实际应用场景中的事务量较大时, 采用抽样方法往往会成为数据挖掘的重要手段之一。基于抽样的算法同样需要对原始数据执行两次遍历操作:首先通过一次随机抽样获取样本数据并构建候选项目集合;接着再通过一次遍历计算这些候选项目的实际频次及其负边界的支持度值。如果某个候选项目在其负边界区域不存在对应的高频项组合, 则可认为该候选项目已成功提取完毕
随着现代信息技术的发展, 数据库规模不断扩大已成为了许多数据挖掘应用面临的主要挑战之一。针对此类问题, 抽样技术作为一种非常有效的途径得到了广泛应用和深入研究。基于抽样的方法虽然无法直接处理大规模原始数据文件中的每一个条目信息, 但其显著的优势在于能够在有限的时间内完成大部分关键分析工作
- FP增长方法
FP增长方法,需要数百次的数据库扫描,计算的复杂性也呈指数增长
频繁模式增长方法是在大型数据库中挖掘频繁项集的一个有效算法,这个算法在挖掘频繁项集时,没有耗时的候选集生成过程,而在Apriori中,这是必不可少的,当数据库很大时,FP增长算法首先进行数据库投影,得到频繁项,然后构造一个紧凑的数据结构——FP树,来对它们进行数据挖掘
15关联分类方法
CMAR是FP增长方法中用于生成频繁项集的一种分类方法,本章包含CMAR方法的主要原因是其来自于FP增长方法,而且可以比较CMAR和C4.5方法的准确率和效率
假设数据样本有n个属性,属性可以是分类的或连续的,对于连续型属性,假设在预处理阶段,将其值离散到若干个区间中,训练数据集T是一系列样本,对于每个样本都存在与它关联的类标记
一般情况下,模式P是不同属性的一组值,如果某样本的所有属性值都在模式P中给出,该样本就匹配P
关联分类方法(CMAR)有两个阶段:
AL规则的生成或训练 B:分类或检验
CMAR在平均准确性、效率和可伸缩性方面优于C4.5算法
多层次关联规则挖掘
多维事务数据库DB的数据模型由以下字段组成:
每个事务都有唯一的标识符ID,
而Ai代表了数据库中的属性字段,
items字段记录了与该事务相关的各项信息集合。
每个元祖t所包含的信息可被分解为两个主要部分:
一是维部分(a1, a2, a3,…),
二是项集部分(items-t)。
数据挖掘通常遵循以下两个主要步骤:
首先是从数据模型中提取各维度的信息特征;
其次是从投影后的子表中识别频繁项集。
