关联规则挖掘(一):基本概念
本文主要来自《数据仓库和数据挖掘》一书,该书与维基百科内容高度相似,并推测可能源自某本外文书籍的翻译。关联规则挖掘(Association rule mining)是数据挖掘中最活跃的研究方法之一,用于发现事件之间的联系,并以超市交易数据库中商品关系为例进行了详细说明。文中通过沃尔玛超市发现尿布与啤酒常被一起购买的例子,展示了如何利用关联规则挖掘分析实际问题并指导商业决策。此外,文章系统地介绍了关联规则挖掘的基本概念及其相关术语(如项集、交易数据库、支持度、可信度等),并提到Apriori算法是解决频繁项集问题的经典方法。
本文主要源自《数据仓库与数据挖掘》一书。该书所讲述的内容与维基百科中的内容极为相似,并且推测可能是从某本外文书籍中被翻译过来。
关联规则挖掘(Association rule mining)属于数据挖掘的主要研究方向之一,在该领域具有重要的应用价值。其主要目标是揭示现象间的内在联系,在早期阶段最初目标是探索不同商品间的关联性。
以下是改写后的文本
这里借用一个引例来介绍关联规则挖掘[1]。
表1 某超市的交易数据库
| 交易号TID | 顾客购买的商品 | 交易号TID | 顾客购买的商品 |
|---|---|---|---|
| T1 | bread, cream, milk, tea | T6 | bread, tea |
| T2 | bread, cream, milk | T7 | beer, milk, tea |
| T3 | cake, milk | T8 | bread, tea |
| T4 | milk, tea | T9 | bread, cream, milk, tea |
| T5 | bread, cake, milk | T10 | bread, milk, tea |
令I = \{i_1, i_2, \dots, i_m\}表示包含m个不同项目的集合\\其中每个元素i_k被称作项目\\这些项目的集合被称为项集\\这些项目的集合被称为项集\\其元素的数量被称为项集的长度\\长度为k的项集则被特别称为k-项集**
根据定义二可知,在数据仓库系统中,
任意一笔事务T属于项集I的一个子集。
每个事务都有一个独特的事务标识符TID。
这些事务构成了一个完整的完整数据库D,
其中|D|表示数据库中包含的事务数量。
作为示例,在该示例中包含了10个完整 transactions.
对于项集X而言,“count(X⊆T)”被定义为在交易集D中包含X的交易数量,“则项集X被称为具有这种特性的支持度”。
support(X)=count(X⊆T)/|D|
引例中X={bread, milk}出现在T1,T2,T5,T9和T10中,所以支持度为0.5。**
**
定义4:最低支撑度 代表了关联规则中用户关注的重点。它被记为SUPmin,并且任何发生概率高于或等于该阈值的支持事件都被视为频繁事件,在数据集中这些频繁事件被称为k-频繁事件。例如,在一个超市销售数据集中设定SUPmin为0.3,则{面包, 牛奶}的发生概率达到了0.5(即12天中有7天同时购买),因此这是一个2-频繁事件。
定义五 :关联规则 是一个蕴含式:
R:X⇒Y
考虑集合X⊆I与集合Y⊆I,并且它们的交集为空集(即X∩Y=∅)。这表明项集X在一个交易中出现时,则可能导致以一定概率Y也会出现。对于用户的关联规则分析需求而言,在数据挖掘领域通常采用两个关键指标来评估这种关系:即支持度与可信度这两个基本标准。
定义六 :关联规则R的支持度 是交易集同时包含X和Y的交易数与|D|之比。即:
support(X⇒Y)=count(X⋃Y)/|D|
支持度表示X和Y同时出现的概率。关联规则的支持度其值等于频繁集的支持度。
该规则的具体可信度计算方法是将同时包含X和Y的交易数量与仅包含X的交易数量进行比较。
confidence(X⇒Y)=support(X⇒Y)/support(X)
可信度表示在交易中若包含X,则同时出现Y的可能性大小。通常情况下,用户主要关注那些支持度和可信度较高的关联规则
定义八:将关联规则的最小支持度与最小可信度分别设定为SUPmin和CONFmin。当某条特定的关联规则R满足其支持度与可信度均不低于SUPmin与CONFmin时,则称其为强关联规则。通过挖掘强关联规则的过程可以帮助商家制定更有针对性的促销策略。
这些定义涵盖了与关联规则相关的一些关键基本概念,而关联规则挖掘则主要针对其核心目标和优化方法。
从交易数据库中提取所有不低于用户设定最小支撑程度的频繁项集。
基于频繁项集产出所需关联关系,并依据用户的最低可信度筛选出具有强关联性的规则。
目前研究人员主要致力于第一个问题的研究工作,在发现频繁集方面具有挑战性。一旦获得上述提到的频繁集,则生成相应的强关联规则相对较为容易。采用Apriori算法能够有效地获取上述提到的高频项集。
参考文献:
[1] 韩慧等。数据仓库与数据挖掘。清华大学出版社,2009。
[2] 该文介绍了关联规则挖掘这一重要的数据分析技术,并提供了详细的理论支持和实践指导...(链接)。该方法自发表以来已获得广泛的关注与应用(链接),并在后续的研究中得到了进一步的发展与改进。
