Advertisement

<数据挖掘--概念与技术>读后感

阅读量:

//2017-05-20 13:30

我为这篇文章已经拖延了一年时间,在周五记录流水账时打算从那时起认真研究黑客技术。后来意识到之前的综述确实缺失了这篇重要内容实在难以忍受便又重新撰写并补充了这篇综述同时也不得不整理此前学习的综述内容也算是圆了我的一个想法

数据挖掘旨在从数据集内识别出单一或多组有意义的模式,并基于提取出的这些模式来进行分析和预测。

处理数据的过程主要分为以下几个步骤:
1 数据清洗 → 2 数据融合 → 3 特征选择 → 4 数据转换(其中前四个阶段属于预处理阶段)→ 5 数据分析 → 6 模型评估 → 7 知识提取

一切的万物都是从基石开始打好基础:

明白了数据及其所属的类别特征是十分重要的前提条件。由于不同类别特征的数据所蕴含的信息特性存在显著差异性特征,在分析过程中往往需要采取不同的处理方法和分析策略。具体而言,在数据分类体系中主要包含以下几类特征:标称型特征(nominal)、二元型特征(binary)、有序型特征(ordered)、离散型特征(discrete)以及连续型特征(continuous)。

然后需要理解几种用于度量数据基本属性的方法:计算不同种类的均值(包括算术平均法和加权平均法),了解中位数以及掌握众数的计算方式;同时还要掌握方差与标准差这两个重要的离散程度指标。

  1. 度量数据的相似性和相异性
    邻近度(proximity)即为衡量数据间差异与距离的重要指标,在后续算法中常以此为基础进行判断。
    由于不同类型的数据显示特征各异,在计算其相近程度时需采取不同的方法:
    a. 标称型数据:计算其相似性通常采用的方法为d(i,j)=(p−m)/p;
    b. 二元型数据:则常用Jaccard系数来衡量其相似程度;
    c. 数值型数据:采用Minkowski距离这一指标;
    d. 序数型数据:需先将其转化为区间化的数值型变量后再进行比较;
    e. 混合型数据:则需根据具体情况分别分析并结合各指标进行综合考量;
    d. 对于稀疏矩阵表示的文本数据,则可采用余弦相似性或Tanimoto距离作为度量手段。

  2. 数据的相关性
    a. 标称数据的相关性检验采用卡方检验方法进行评估。
    b. 数值型数据的相关程度可借助皮尔逊乘积动差系数进行测定。
    c. 数值型数据之间的协变数可用协方差来表示其变化方向与变动幅度的关系程度。
    通过相关分析可以在大量特征中筛选出若干个关键主成分,并剔除那些对主成分影响较小或属于冗余属性的数据特征,在便于后续特征选择时更加高效可靠。
    因为选择过多特征不仅会增加计算复杂度还会带来不必要的负面影响。

5.规范化变化数据
a.最小-最大规范化
b.z-score规范化
c.小数定标规范化

6.频繁项集及其关联性与相似程度
a.Support(A→B)=P(A∧B),其值等于所有事务集中同时包含A和B的事务所占的比例
b.Confidence(A→B)=P(B|A)=Support(A∧B)/Support(A)=support_count(A∧B)/support_count(A)
c.Apriori算法
d.FP-growth算法
e.从关联分析到相关分析:主要采用提升度(Lift)与卡方检验(Chi-squared)等方法进行改进
f.模式评估指标比较:全局置信度(Global Confidence)、最大置信度(Max Confidence)、Kulczynski相似性与余弦相似性指标

7.分类 (classfication)(需要监督学习)
我们有一组数据变量,其中一个变量是目标分类标签,我们通过训练(数据学习)来建立好分类模型,然后对未知数据进行分类。
a.决策树: ID3, C4.5, CART
a.1.属性选择度量: 决策树分裂的准则. 1.信息增益 2.增益率 3.基尼指数 4.etc
a.2.树剪枝: prepruning / postpruning
b.贝叶斯分类:
b.1.朴素贝叶斯(Naive Bayesian) 通过先验概率P(H)去预测后验概率P(H|X): P(H|X) = P(X|H)P(H) / P(X),其实不用管P(X),只用计算P(X|H)P(H)的几组值,找到最大的值所对应的项。
c.基于规则的分类
d.模型评估与选择
准确率(识别率): (TP+TN)/(P+N)
错误率(误分类率): (FP+FN)/(P+N)
敏感度 sensitivity(真正例率,召回率 recall): TP/P
特效性 specificity(真负例率): TN/N
精度 precision: TP/(TP+FP)
F度量 精度和召回率的调和均值: 2precisionrecall/(precision+recall)
e.提高分类准确率的技术
e.1.装袋(bagging):多个分类器,统计找到最大的投票数
e.2.提升 AdaBoost: 对多个分类器加入权重的概念,错误时增加权重,当权重达到一个阈值,则抛弃掉分类器。
e.3.装袋和提升比较: 由于 提升关注误分组,所以存在结果复合模型对数据过分拟合的危险。装袋不太受过分拟合的影响。尽管与单个模型相比,两者都能够显著提高准确率,但是提升往往得到更高的准确率。
e.4.随机森林: 个体决策树的每个节点使用随机选择的属性,再将多个决策器决定的结果,投票返回得票最多的类。实现可以使用装袋和随机属性选择结合起来。

  1. 聚类 (clustering) (无监督学习)
    聚类通过定义对象间相似性度量D(i,j),将数据对象划分为若干个簇(clusters),使得同一簇内的对象彼此相似程度较高、与其他簇内的对象差异较大。
    a. 划分方法
    a.1 K均值 (K-Means): 该算法要求用户预先指定簇的数量K。值得注意的是,该方法不具备全局最优解的保证,在实际应用中容易陷入局部最优解状态。此外对离群点及噪声较为敏感,在数据集中存在较多离群点或噪声时会严重影响结果。
    a.2 K中心点 (PAM): 由于其较高的时间复杂度(计算复杂度为O(k(n−k)²),其中n为数据集规模),在处理大规模数据时计算开销显著增大。针对大规模数据集问题,学者们提出了改进版本CLARANS(Clustering Large Application based on RANdomized Search),该算法采用随机抽样策略以降低计算开销。
    b. 层次方法
    b.1 聚合与分裂的层次聚类
    b.2 基于不同距离度量的层次聚类算法:包括最小距离法、最大距离法、平均距离法及加权平均距离法等。

由于目前对剩下的内容还处于初步了解阶段

另外一本来自2013年6月第一版第三次印刷的书籍中发现了一些错误的公式和计算式

//2017-05-20 23:46

全部评论 (0)

还没有任何评论哟~