关联规则挖掘(一)
关联规则挖掘是一种经典的数据分析方法,在本系列文章中将系统地介绍这一技术的核心思想及其实际应用场景。
通过一个典型案例帮助读者理解基础原理。
并从多角度探讨其分类方法。
一、概述
我相信大家都知道啤酒与尿布的故事。这是一个最经典的案例:购物篮分析 。通过对顾客购买商品之间的联系进行分析研究,在大量数据中找出哪些商品常被同时购买。这种发现不仅有助于理解消费者的购物习惯模式,在实际应用中也能为企业制定精准营销策略提供重要依据。例如,在一次超市购物时,如果顾客买了牛奶,则他也会买面包的概率有多大?通过协助零售商优化货架布局和促销策略等信息管理手段,在实际经营中能够更好地指导企业进行销售活动安排。例如,在货架上将牛奶和面包尽可能放得更加接近;将其摆放在商店的两端位置上,则可能吸引更多的顾客在同一购物行程中同时选购这两种商品;或者将其与其他高价值产品如鸡蛋搭配展示,则可能激发更多潜在顾客在同一购物过程中选购更多种类的商品组合。
关联规则挖掘的目标是探索海量数据中物品集合之间的有趣关联或相互依存关系。在商业领域内这一技术方法的应用前景非常广阔:通过优化产品分类布局、提升销售交叉推荐效果以及识别潜在促销机会等具体实践手段,在实际运营过程中能够为企业创造更大的价值。
二、基本概念
以一个简单的例子来理解基本概念:
t1: 牛肉、鸡肉、牛奶
t2: 牛肉、奶酪
t3: 奶酪、靴子
t4: 牛肉、鸡肉、奶酪
t5: 牛肉、鸡肉、衣服、奶酪、牛奶
t6: 鸡肉、衣服、牛奶
t7: 鸡肉、牛奶、衣服
以下是经过同义改写的文本

_值得注意的是:当右手边项集的支持度已经很高时_,
即使这条规则具有较高的confidence,
这条规则也是无价值的。
举个例子:
从所分析的一万件事务中,
其中有6千件包含了电脑游戏玩家,
7千五百件包含了主机游戏玩家,
其中四千件包含了两种类型的游戏玩家。
该关联规则(电脑游戏玩家与主机游戏玩家)的支持率为4%,
表面上看很高,
但其实这一关联模式实际上是一个误导。
从已购买过电脑游戏玩家的情况来看,
有6千六百七十一人中的四千人会倾向于购买主机 gamers,
而没有任何前提条件下,
用户的主机 gamers 购买概率为75%,
这意味着强制顾客先买电脑 gamers
反而会导致他们减少对主机 gamers 的兴趣。
提升度衡量了项集{X}与{Y}之间的独立性水平,
如果提升度等于1,
说明两个事件之间没有任何关联;
如果小于1,
则表示事件X的发生与事件Y之间存在排斥关系;
通常只有当提升度超过3时,
我们才会认为挖掘出的相关性模式是有意义的价值。
关联规则的挖掘是一个两步的过程:
(1)找出所有频繁项集:根据定义,这些项集出现的频繁性至少和预定义的最小支持计数一样。
(2)由频繁项集产生强关联规则:根据定义,这些规则必须满足最小支持度和最小置信度。
这两步中,第二步较容易,挖掘关联规则的总体性能由第一步决定。
三、关联规则的分类
购物篮分析仅是关联规则挖掘的一种表现形式。事实上,在这些分类方法中存在多种多样的分类标准:
1.根据规则中所处理的值类型 :
例如,在这种情况下考虑数值属性;或者在另一种情况下考虑布尔属性。
- 如果某些规则涉及存在性关系(即两个项之间是否存在),则它们被称为布尔关联规则。例如:buy(X, 牛肉) ⇒ buy(X, 鸡肉)。
- 如果某些规律涵盖量化的属性关系(即两个量化的属性之间),则它们被称为量化关联规律。例如:age(X,"30...39") ∪ income(X,"42K...48K") ⇒ buys(X, high\_resolution\_TV) ,其中 X 指代顾客变量。
2.根据规则中涉及的数据维 :
- 当关联规则中的项或属性每个仅涉及一个维度时,则被称为单维关联规则。
- 例如,在以下情况下:
- 当涉及两个或更多维度时,则被称为多维关联规则。
- 其中,在其中一个例子中,
- X 是代表顾客的变量。
- 其中,在其中一个例子中,
- 当涉及两个或更多维度时,则被称为多维关联规则。
- 例如,在以下情况下:
3.根据规则集所涉及的抽象层 :
- 如果关联规则在不同的抽象层发现,则它是多层关联规则 。例如,假定挖掘的关联规则集包含下面规则: age(X,”30…39”) ⇒ buys(X,”laptop computer”) age(X,”30…39”) ⇒ buys(X,” computer”) 在上述规则中,购买的商品涉及不同的抽象层,即computer在比laptop computer高的抽象层。
- 如果关联规不涉及不同的抽象层,则它是单层关联规则 。
4.根据关联挖掘的各种扩充 :
可以进一步扩展至相关分析领域,并据此识别属性间的关联性。
同时还可以挖掘出**最大模式(maximal frequent pattern)以及封闭形式的概念(closed itemset)**等关键信息。
其中,
最大模式p是指所有其真超模式都不是高频的情况;
封闭形式的概念c则定义为:对于一个给定的概念c,
不存在其真超概念c',
使得所有包含c的概念都必然包含c'。
通过提取这些关键信息,
我们能够有效地压缩所发现的所有高频概念集合,
实现高效的关联规则挖掘过程。
1
1
2
1
1
