数据挖掘-序列模式挖掘-PrefixSpan算法(ppt版本)
发布时间
阅读量:
阅读量
PrefixSpan算法

通俗来讲:前缀prefix就是序列数据前面部分的子序列

后缀:对于某一个前缀,序列中除去前缀后面剩下的子序列就是我们的后缀。

投影数据库:假设alpha是序列数据库 S的一个序列模式,那么alpha的投影数据库就是它在S 中关于前缀alpha的序列的后缀的集合。
投影数据库的支持度:相当于现在beta(beta是一个带前缀alpha的序列)支持度不是再在原始数据库中去找了,而是在alpha的投影数据库里面找了。

思想:之前计算某一个(候选)序列的支持度计数,都是拿着该(候选)序列去原始数据库里面去找,但是有了投影数据库的概念,我们上面证明了该(候选)序列在原始数据库中的计数等于该(候选)序列在与之对应的投影数据库中的计数。我们的prefixspan算法中就是在投影数据库里面计数支持度的。

一个递归的过程。频繁序列->投影序列->频繁序列->投影数据库->.......


关键:不用产生候选序列,也不用判断是否有候选序列的存在


伪投影数据库技术







参考:
全部评论 (0)
还没有任何评论哟~
