Advertisement

数据挖掘的概念与技术读书笔记

阅读量:

第一章 引论
数据挖掘可以挖掘的数据类型:
数据库数据、数据仓库、事务数据、其他类型数据
数据仓库的下钻与上卷
下钻指的是挖掘更深层次的数据,上卷是指挖掘更大层面的数据。
例如:有一个三维表格,
x轴代表地区:北京、天津、济南
y轴代表时间:1月、2月、3月
z轴代表产品系列:安全产品、娱乐产品、卫生产品、食用产品
那么通过数据挖掘,我们可以挖掘到北京1月份安全产品的销量。
通过下钻,我们可以挖掘到北京1月1号安全产品的销量。
通过上卷,我们可以看到北京今年安全产品的销量。

事务数据
一般表示一个行为或操作过程。无论是买东西、订票还是点东西等行为都属于事务范畴。
买东西的行为通常伴随着一些具体的步骤或环节。
在订票时涉及的信息包括起止地点、日期、人数等关键要素。
点东西的行为常常涉及到网站页面、功能模块或是根据指令执行的各种操作。

除了常规数据外

数据特征化
查询一年之内在淘宝上花费超过10000元钱的用户的特征。

年龄40-45岁,有工作,信用评级良好。

客服经理关注对比两组顾客:频繁购买计算机产品的顾客与非频繁购买计算机产品的顾客。

大部分高频使用计算机的顾客处于20至40岁年龄段,并持有高等教育文凭。

约有6成较少频率使用计算机的顾客年纪偏大或偏小且未获得高等教育文凭。

采用下钻算法能够识别出更多显著的区别。
Frequent itemset是指在事务数据库中频繁共同出现的商品集合。
Frequent sequence pattern表明,在用户的购买行为中存在如先购电脑 followed by peripherals(鼠标键盘)然后是办公用品(如贴纸和笔记本包)等有序的行为模式。
关联分析
例如,在销售数据分析中,请问商品间的关联性分析是如何进行的?

buy(X,computer)→buy(X,software) [support = 1%,confidence = 50%]

这些数据表明,在所有的事务性数据中仅有1%的用户同时购买了电脑与软件,并且误以为顾客购买了计算机的情况下其购买软件的概率则为50%。
单个谓词所对应的关联规则被定义为一维关联规则
此外还有高维关联规则
例如,在年龄介于4至5岁的群体中具有年收入位于4至8万元人民币的人群具有这样的特征:他们购买计算机的概率则为。

age[X,40…50]^income[X,40000-80000]→buy[X,computer] =[0.2%,60%]

此规则费用,在所有交易数据中若0.2%的数据满足特定条件并拥有相应的设备,则这类人群购买设备的概率为60%

分类与回归
分类即为利用数据对商品进行标注,例如某件商品在促销期间的表现可被归类为‘畅销品’;
而回归分析则用于预测某种线性收益,例如某一种产品在未来三个月内的销售情况。

聚类分析
聚类分析不受类别标记的影响。
它是基于数据对象之间高度相似性而被划分为若干个簇的过程。

全部评论 (0)

还没有任何评论哟~