Advertisement

Apriori算法 (Introduction to data mining)

阅读量:

前置概念:

Support : 支持度 s(X->Y) =(XUY)/N;

Confidence : 置信度 c(X->Y) =(XUY)/(X);

Frequent ItemSet : 频繁项集 Support >minSup;

Apriori Principle : 若某项集被标记为频繁,则该项集中所有可能的子项集也都满足这一条件。

Frequent Itemset Generation in the AprioriAlgorithm:

Apriori算法最初提出了一个有效的关联规则挖掘方法,并首次将支持度剪枝策略应用于候选集管理中。该算法成功地减少了候选项集合的增长速度,并且显著提升了计算效率。

Ck代表k候选项集, Fk代表频繁k项集

1 算法首先遍历一遍数据集,检测每项的支持度,获取频繁1-项集。Steps (1-2)

2 接下来,循环使用频繁(k-1)-项集派生k-候选项集。Step (5)

3 遍历数据集计算候选项集支持度Steps (6-10)

4 计算支持度后,消除非频繁项集Step (12)

5 当没有新的频繁项集产生的时候,算法结束Step(13)

Frequent itemset generation of the AprioriAlgorithm.

Rule generation:

如果一个规则X \rightarrow Y - X不满足置信度阈值,则所有包含于X的子集X' \rightarrow Y - X'也均不满足该阈值。

Rule generation of the Apriori algorithm.

Procedure ap-genrules(f k, Hm).

总结:

核心思想: 基于两阶段频繁项集,挖掘关联规则

算法优点: 简单、易理解、数据要求低

算法缺点: I/O负载大,产生过多的候选项集

**
**

Apriori例题(Introduction to data mining):

**

**

**

**


(b)16/32=50%

(c)11/32=34.4%

(d)5/32=15.6%

全部评论 (0)

还没有任何评论哟~