<数据挖掘--概念与技术>读后感

阅读量：

//2017-05-20 13:30

我为这篇文章已经拖延了一年时间，在周五记录流水账时打算从那时起认真研究黑客技术。后来意识到之前的综述确实缺失了这篇重要内容实在难以忍受便又重新撰写并补充了这篇综述同时也不得不整理此前学习的综述内容也算是圆了我的一个想法

数据挖掘旨在从数据集内识别出单一或多组有意义的模式，并基于提取出的这些模式来进行分析和预测。

处理数据的过程主要分为以下几个步骤：
1 数据清洗 → 2 数据融合 → 3 特征选择 → 4 数据转换（其中前四个阶段属于预处理阶段）→ 5 数据分析 → 6 模型评估 → 7 知识提取

一切的万物都是从基石开始打好基础：

明白了数据及其所属的类别特征是十分重要的前提条件。由于不同类别特征的数据所蕴含的信息特性存在显著差异性特征，在分析过程中往往需要采取不同的处理方法和分析策略。具体而言，在数据分类体系中主要包含以下几类特征：标称型特征（nominal）、二元型特征（binary）、有序型特征（ordered）、离散型特征（discrete）以及连续型特征（continuous）。

然后需要理解几种用于度量数据基本属性的方法：计算不同种类的均值（包括算术平均法和加权平均法），了解中位数以及掌握众数的计算方式；同时还要掌握方差与标准差这两个重要的离散程度指标。

度量数据的相似性和相异性
邻近度(proximity)即为衡量数据间差异与距离的重要指标，在后续算法中常以此为基础进行判断。
由于不同类型的数据显示特征各异，在计算其相近程度时需采取不同的方法：
a. 标称型数据：计算其相似性通常采用的方法为d(i,j)=(p−m)/p；
b. 二元型数据：则常用Jaccard系数来衡量其相似程度；
c. 数值型数据：采用Minkowski距离这一指标；
d. 序数型数据：需先将其转化为区间化的数值型变量后再进行比较；
e. 混合型数据：则需根据具体情况分别分析并结合各指标进行综合考量；
d. 对于稀疏矩阵表示的文本数据，则可采用余弦相似性或Tanimoto距离作为度量手段。
数据的相关性
a. 标称数据的相关性检验采用卡方检验方法进行评估。
b. 数值型数据的相关程度可借助皮尔逊乘积动差系数进行测定。
c. 数值型数据之间的协变数可用协方差来表示其变化方向与变动幅度的关系程度。
通过相关分析可以在大量特征中筛选出若干个关键主成分，并剔除那些对主成分影响较小或属于冗余属性的数据特征，在便于后续特征选择时更加高效可靠。
因为选择过多特征不仅会增加计算复杂度还会带来不必要的负面影响。

5.规范化变化数据
a.最小-最大规范化
b.z-score规范化
c.小数定标规范化

6.频繁项集及其关联性与相似程度
a.Support(A→B)=P(A∧B)，其值等于所有事务集中同时包含A和B的事务所占的比例
b.Confidence(A→B)=P(B|A)=Support(A∧B)/Support(A)=support_count(A∧B)/support_count(A)
c.Apriori算法
d.FP-growth算法
e.从关联分析到相关分析：主要采用提升度（Lift）与卡方检验（Chi-squared）等方法进行改进
f.模式评估指标比较：全局置信度（Global Confidence）、最大置信度（Max Confidence）、Kulczynski相似性与余弦相似性指标

7.分类 (classfication)（需要监督学习）
我们有一组数据变量，其中一个变量是目标分类标签，我们通过训练（数据学习）来建立好分类模型，然后对未知数据进行分类。
a.决策树: ID3, C4.5, CART
a.1.属性选择度量: 决策树分裂的准则. 1.信息增益 2.增益率 3.基尼指数 4.etc
a.2.树剪枝: prepruning / postpruning
b.贝叶斯分类:
b.1.朴素贝叶斯(Naive Bayesian) 通过先验概率P(H)去预测后验概率P(H|X): P(H|X) = P(X|H)P(H) / P(X)，其实不用管P(X),只用计算P(X|H)P(H)的几组值，找到最大的值所对应的项。
c.基于规则的分类
d.模型评估与选择
准确率（识别率）: (TP+TN)/(P+N)
错误率（误分类率）: (FP+FN)/(P+N)
敏感度 sensitivity（真正例率，召回率 recall）: TP/P
特效性 specificity（真负例率）: TN/N
精度 precision: TP/(TP+FP)
F度量精度和召回率的调和均值: 2precisionrecall/(precision+recall)
e.提高分类准确率的技术
e.1.装袋(bagging):多个分类器,统计找到最大的投票数
e.2.提升 AdaBoost: 对多个分类器加入权重的概念，错误时增加权重，当权重达到一个阈值,则抛弃掉分类器。
e.3.装袋和提升比较: 由于提升关注误分组，所以存在结果复合模型对数据过分拟合的危险。装袋不太受过分拟合的影响。尽管与单个模型相比，两者都能够显著提高准确率，但是提升往往得到更高的准确率。
e.4.随机森林: 个体决策树的每个节点使用随机选择的属性，再将多个决策器决定的结果，投票返回得票最多的类。实现可以使用装袋和随机属性选择结合起来。

聚类 (clustering) （无监督学习）
聚类通过定义对象间相似性度量D(i,j)，将数据对象划分为若干个簇（clusters），使得同一簇内的对象彼此相似程度较高、与其他簇内的对象差异较大。
a. 划分方法
a.1 K均值 (K-Means): 该算法要求用户预先指定簇的数量K。值得注意的是，该方法不具备全局最优解的保证，在实际应用中容易陷入局部最优解状态。此外对离群点及噪声较为敏感，在数据集中存在较多离群点或噪声时会严重影响结果。
a.2 K中心点 (PAM): 由于其较高的时间复杂度（计算复杂度为O(k(n−k)²)，其中n为数据集规模），在处理大规模数据时计算开销显著增大。针对大规模数据集问题，学者们提出了改进版本CLARANS（Clustering Large Application based on RANdomized Search），该算法采用随机抽样策略以降低计算开销。
b. 层次方法
b.1 聚合与分裂的层次聚类
b.2 基于不同距离度量的层次聚类算法：包括最小距离法、最大距离法、平均距离法及加权平均距离法等。

由于目前对剩下的内容还处于初步了解阶段

另外一本来自2013年6月第一版第三次印刷的书籍中发现了一些错误的公式和计算式

//2017-05-20 23:46

全部评论 (0)

还没有任何评论哟~

<数据挖掘--概念与技术>读后感

//2017052013:30 这篇文章我已经欠了至少一年了，周五写记录时，本想写开始认真搞黑客，但突然发现之前的总结少了这一篇，心里实在过不去，遂补上，顺便梳理一下之前学习的总结，也了却一心愿。数...

《数据挖掘》技术与概念

数据挖掘 1引论什么是数据挖掘数据挖掘的过程 1.3可以挖掘什么类型的数据 2认识数据 2.1数据对象与属性类型 2.1.1属性 2.1.2标称属性nominal 2.1.3二元属性binary ...

数据挖掘概念与技术课后笔记

数据挖掘概念与技术一数据爆炸：自动数据收集工具和成熟的数据库技术使大量的数据被收集，储存在数据库、数据仓库或其他信息库中以待分析。数据挖掘:从大量的数据中挖掘令人感兴趣的、有用的、隐含的、先去未知...

数据挖掘的概念与技术读书笔记

第一章引论数据挖掘可以挖掘的数据类型：数据库数据、数据仓库、事务数据、其他类型数据数据仓库的下钻与上卷下钻指的是挖掘更深层次的数据，上卷是指挖掘更大层面的数据。

【读书笔记-数据挖掘概念与技术】高级模式挖掘

模式挖掘是一个比频繁挖掘模式更一般的术语，因为前者还涵盖了稀有模式和负模式。然而，在没有歧义时，两者可以互换地使用。模式挖掘路线图分类基本模式基于模式所涉及的抽象层基于规则或模式所涉及的维数...

【读书笔记-数据挖掘概念与技术】数据立方体技术

基本概念：基本单元：基本方体的单元聚集单元：非基本方体的单元冰山立方体：部分物化的立方体最小支持度最小支持度阀值：部分物化的最小阀值说白了就是限定了一个范围 ∵冰山立方体仍有大量不感兴趣的单元...

数据挖掘：概念与技术第二章

文章目录第二章：认识数据 2.1数据对象与属性类型 2.1.1什么是属性 2.1.2标称属性 2.1.3二元属性 2.1.4序数属性 2.1.5数值属性 2.1.6离散属性与连续属性 2.2数据的基...

数据挖掘概念与技术（第一章）

【导读】在给大家分享基础入门知识的同时，我们也会带领大家去阅读一些相关领域的书籍。以做阅读理解的态度为大家剖析书中知识点，相信你如果能够跟上我们的节奏一起学习，一定会有所收获。

数据挖掘：概念与技术第一章

文章目录第一章：引论 1.1为什么进行数据挖掘？ 1.2什么是数据挖掘？ 1.3可以挖掘什么==类型的数据== 1.3.1数据库和数据仓库的区别 1.3.2事务数据 1.4可以挖掘什么==类型的模式...

数据挖掘概念与技术-第2章

【导读】今天我们继续以《数据挖掘概念与技术》（机械工业出版社,作者：JiaweiHan;MichelineKamber；翻译：范明/孟小峰一书为基础，配合Python代码给大家介绍数据属性、度量和基本...

是否确定退出登录?

&lt;数据挖掘--概念与技术>读后感

全部评论 (0)

相关文章推荐

&lt;数据挖掘--概念与技术>读后感

《数据挖掘》技术与概念

数据挖掘概念与技术课后笔记

数据挖掘的概念与技术读书笔记

【读书笔记-数据挖掘概念与技术】高级模式挖掘

【读书笔记-数据挖掘概念与技术】数据立方体技术

数据挖掘：概念与技术第二章

数据挖掘概念与技术 （第一章）

数据挖掘：概念与技术 第一章

数据挖掘概念与技术-第2章

<数据挖掘--概念与技术>读后感

<数据挖掘--概念与技术>读后感

数据挖掘概念与技术（第一章）

数据挖掘：概念与技术第一章