Advertisement

关联规则挖掘

阅读量:

通过具体的实例来阐述概念会更加清晰。其中包含以下$10条Transaction数据。

通过具体的实例来阐述概念会更加清晰。其中包含以下$10条Transaction数据。

交易ID (TID) 购买商品(Items )B:bread C:cream M:milk T:tea
T01 B C M T
T02 B C M
T03 C M
T04 M T
T05 B C M
T06 B T
T07 B M T
T08 B T
T09 B C M T
T10 B M T

几个概念:

项目(item): 其中的B C M T 都称作item。

项集(ItemSet):由多个Item组成的集合,在数据挖掘中常用于表示事务数据库中的各项属性组合。例如,在超市销售数据分析中,可能出现如{B, C}、{C, M, T}等典型的关联规则模式。每位顾客的一次购物行为都涉及一个ItemSet。其中,在ItemSet中的Item数量决定了其长度,在数据挖掘领域通常将包含k个Item的ItemSet则被称为K-ItemSet。

交易(transaction): 定义为所有商品的集合,在这个例子中其具体形式为{B, C, M, T}。每一个非空的I子集均被视为一个 transaction 。这些 transaction 构成了一个名为 D 的 transaction 数据库。

项集支持度(support): 复习一下项集的概念后可知, 项集X的支持度即为其在交易库中出现次数(频数)与总交易数量之比. 换言之, support(X) = (X在交易库中的出现次数 / 总交易数量). 例如, 在T02数据集中, 对于项集X={B C M}, 计算可得support(X)=2/10=0.2. 这一指标也反映了该项集在整个数据库中的频繁程度.

frequent itemset是指在其支持度超过一定阈值时被识别出来的一种数据模式。该模式通常通过预设的标准来衡量其重要性。为了进一步分析这些模式之间的关系, 我们将这些模式按照其出现频率划分为不同的类别, 其中最常见的是单个项目的类别以及由多个项目组成的集合类别。特别地, 我们将那些满足较高标准的支持率的数据模式称为高频模式或高频集合, 并将其标记为L_k形式以表示其复杂性与重要性之间的关系。


关联规则(association rule): R:X→Y

其中X和Y都是I的子集并且它们没有共同元素这一规定表明若项集X出现在某笔交易中则有某种程度的概率项集合y也会一同出现在该笔交易之中该规定表明若项集合x出现在某笔交易里则有某种程度的概率项集合y也会一同出现在该笔交易之中例如r1b→m表示如果一个购物篮中有面包b则有概率也包含牛奶m其中x被称为条件antecedent或者左-hand-side lhs而y被称为结果consequence或者right-hand-side rhs衡量关联规则的重要指标包括支持度和支持程度高的情况意味着在大量交易中存在相应的模式匹配情况

关联规则的支持度: 事务数据库中同时包含X、Y的事务数量与总事务数量的比例, 定义为支持度(X→Y)。这实际上等价于项集{X,Y}在事务数据库中出现的频率。

关联规则的信任度 定义为同时包含X和Y的交易数量与仅包含X的交易数量之比,并被标记为confidence(X → Y)。即表示条件概率:在购买了项集X的情况下(即购买了商品或满足条件),购买商品或满足条件的同时也会购买商品或满足条件的概率是多少。数学上可表示为P(Y|X) = |{tx | tx包含了 X ∪ Y}| / |{tx | tx包含了 X}|。

1 - sup(Y)

详细解释一下的话会发现关联规则R实际上是一个概率性的指标用于衡量在商品集合中的依赖关系具体来说当某一个商品集合X被包含在一个顾客的购买记录中时该顾客同样也会购买商品集合Y的概率大小这个概率被称为置信度记作confidence(X→Y)

如果定义一个关联规则的关键指标包括最小支持度和最小可信度,并且其中某一特定规则同时达到了这两个关键指标均超过了设定的最低要求,则被定义为其强关联规则;对应的另一种情况则是弱关联规则。

如表所示,在所述表格中针对规则R:B → M进行分析时,默认该关联规则的支持度计算结果为6/10=0.6。这表明在整体交易数据中同时包含商品C与M的比例达到了60%。其可信度值则计算为6/8=0.75。这进一步表明,在购买商品B的情况下会有75%的概率也会选择购买商品M。特别地,在较大的抽样样本下(例如每100人),就有75人会同时拥有商品B和M;而剩下的25人则会仅持有其中一种商品

Rakesh Agrawal

关联规则的发现一般分为两个步骤:

1) 根据给定的最小项集支持度,找出所有满足条件的项集,即频繁项集。

2) 根据最小可信度,在所有频繁集中找出符合条件的关联规则。

在步骤1中,可选的项组集合(itemset)共有** 2 n-1**个(不计空集),确定所有频繁集合是一项复杂的工作。需要注意的是,在某个数据集中若某一项组集合X为频繁集合,则其任意子组集合也必然是高频出现的

关联规则分类:

数据维度包括一维与高维等概念。例如,在关联规则学习中,面包→牛奶可视为一维关联规则;另一方面,则有性别等于'女'则职业等于'教师'属于高维关联规则的情况。

从数据抽象的角度来看,存在一级关联规则与多层次关联规则。
以'面包牛奶'为例说明单一层级的情况。
如'面包→伊利牌牛奶'所示,则属于多层次情况。

变量的类型分为布尔型关联规则和数值型。布尔型中,在性别为"女"的情况下,则职业趋向于"教师";数值型中,在工龄为"5"的情况下,则平均工资约为"3000"元。

频繁项集常用挖掘算法:Apriori算法、FP-growth算法、Eclat算法

在IBM SPSS Modeler中,用简单的数据集测试Apriori算法。详细请参考:

http://blog.sciencenet.cn/blog-71538-682195.html

全部评论 (0)

还没有任何评论哟~