Advertisement

数据挖掘读书笔记--第六章:频繁模式挖掘、关联及相关性

阅读量:

散记知识点

——“哪些商品组合频繁地被顾客同时购买?”


1. 基本概念

1.1 频繁项集、闭项集和关联规则

(1) 支持度和置信度
L={I_{1}, I_{2},...,I_{3}} 的集合D是数据库事务的集合包含每个事务 T(是一个非空项集,T \subseteq L),设项集 AA \to B的关联规则在事务集中成立,该条规则具有支持度s(表示中包含A \bigcup B的概率),置信度c(表示中包含的事务同时也包含B的事务的概率)。

规则的支持度置信度 是规则兴趣度的两种度量,分别反映了所发现规则的有用性和确定性。

(2) 项集、频繁项集和闭频繁项集

项的集合称为项集。包含k个项的项集称为k项集如{computer, cell phone}为一个2项集。项集出现的频度 是包含项集的事务数,简称为项集的频度、(绝对)支持度(计数) 。(1)中定义的是项集的相对支持度 ,如果一个项集的相对支持度满足于预定义的最小支持度阈值 ,则该项集是频繁项集

  • 挖掘关联规则的问题可以归结为挖掘频繁项集

关联规则的挖掘过程一般有两步

  1. 找出所有的频繁项集 :满足最小支持度的所有项集。

  2. 由频繁项集产生强关联规则 :这些规则必须满足最小支持度和最小置信度。

如果项集X在数据集中不存在真超项集 Y(即X \subset Y)使得与在中具有相同的支持度,则项集是闭的。如果在中是闭的和频繁的,则称是闭频繁项集 。如果不存在超项集使得并且在是频繁的,则称是极大频繁项集


2. 频繁项集挖掘方法

2.1 Apriori算法

(1) 两条经典的先验性质:

  • 频繁项集的所有非空子集一定是频繁的。

  • 非频繁项集的所有超集一定不是频繁的。

(2) 两个重要步骤

L_{k-1}为第k-1步的频繁项集合,C_{k}为下一步的候选项集合。为从找出L_{k},经历以下两个步骤:

  1. 连接步 :为找出,通过将与自身连接产生候选项集合。设l_{i}为的项集,记l_{i}[j]表示的第j项(例如l_{i}[k-1]表示的倒数第2项)。对于(k-1)项集,把项排序,使得$l_{i}[1]l_{1}l_{2}C_{k}kkL_{k}C_{k}k(k-1)L_{k-1}C_{k}L_{k}DC_{1}L_{1}C_{2}DC_{2}L_{2}C_{3}k(k-1)DL_{2}C_{3}lls

Xstep1Dstep2DI_{2}I_{1}I_{2}step3I_{5}I_{5}I_{5}

(k+1)k

A \to B[support, confidence, correlation]

lift(A, B)=\frac{P(A \bigcup B)}{P(A)P(B)}= \frac{P(B/A)}{P(B)}AB

ABall_conf(A, B)=\frac{sup(AUB)}{max{sup(A), sup(B)}}=min{P(A | B), P(B|A)}ABmax_conf(A, B)=max{P(A | B), P(B|A)}Kulc(A, B)=\frac{1}{2}(P(A | B)+ P(B|A))cosine(A,B)=\frac{P(A \bigcup B)}{\sqrt{P(A) \times P(B)}}=\frac{sup(AUB)}{\sqrt{sup(A) \times sup(B)}}=\sqrt{P(A|B) \times P(B|A)}

ABD_{1}D_{2}D_{1}D_{2}D_{3}D_{1}D_{3}D_{4}

\overline{mc}\overline{mc}AB

IR(A, B)= \frac{|sup(A)-sup(B)|}{sup(A)+sup(B)-sup(A\bigcup B)}ABD_{5}D_5D_6

全部评论 (0)

还没有任何评论哟~