读书笔记(一) 数据挖掘简要介绍
读书笔记|大数据时代的数据挖掘
读书笔记|大数据时代的数据挖掘
读书笔记
目录
一、大数据时代的数据挖掘
1、大数据的特点4V+4V
2、数据挖掘
3、从数据挖掘应用的角度看大数据
二、数据挖掘技术的发展历史
三、十大数据挖掘算法
1、k近邻算法(k-nearest neighbors KNN)
2、决策树分类(C4.5)& 3、分类和回归(CART)
4、朴素贝叶斯分类(naive bayes)
5、支持向量机(SVM support vector machine)
6、关联规则挖掘(Apriori)
7、最大期望参数估计(expectation maximization EM)
8、链接分析(PackRank)
9、集成算法(Adaboost adaptive boosting)
10、k均值聚类(k-means)
四、数据挖掘平台
一、大数据时代的数据挖掘
数据的生成与收集是核心环节,在海量数据中提取潜在且未被发现的信息被视为一种涵盖分析与处理技术体系的过程
1、大数据的特点4V+4V
- 从数据的变现形式
- 海量volume
- 多样variety
- 高速velocity
- 价值value
- 从实践应用和大数据处理的复杂性
- 变量variable
- 真实度veracity
- 挥动度volatility
- 可视化visualization
-
大数据的定义即是融合了_以上特征_的数据。
-
该机构对于大数据发展趋势做出了预测。
- 希望从技术上寻找突破
- 安全和隐私问题
- 期望依靠政府和法律推动发展
2、数据挖掘
- 数据挖掘可以用下面的4个特性概括
1、应用性
数据挖掘是理论算法和应用实践的完美结合
2、工程性
数据挖掘作为一个多环节系统工程流程包含在其中:包括数据准备与管理阶段、经过数据预处理与转换环节后进入挖掘算法开发与应用阶段,并最终完成结果展示及分析工作,并实现知识的积累与应用这一整体流程。
3、集合性
数据挖掘是一种多功能集合体,在其中包含一系列主要功能模块:包括数据挖掘分析、模式识别、时间序列模式识别、分类与预测技术、聚类分析技术、异常行为检测技术以及数据可视化方法等
4、交叉性
统计分析、模式识别、机器学习、人工智能、信息检索、数据库等
- 从研究发展历程看
该过程涵盖了一系列数据挖掘领域的演进路径:从最初的客户行为分析到当前对社交媒介等新型数据类型的应用研究,在这一演变过程中所需处理的数据格式不断深化和复杂化,并伴随数据量呈现显著增长趋势
3、从数据挖掘应用的角度看大数据
- 从战略层面来看,大数据项目是一个核心任务,其成功与否取决于领导层的支持。
- 在实际应用中,获取高质量的数据并进行有效整合与预处理是实现数据分析价值的关键步骤。
注:这段书中指出数据挖掘不仅仅是单纯的数据处理与分析活动,并非仅靠一个团队就能完成。而实际上,则需要一个更为复杂的协作体系:一方面还需要许多外部因素的支持以及团队之间的紧密协作才能实现有效的信息提取与价值创造。
二、数据挖掘技术的发展历史
- 18c——贝叶斯方法论
- 19c——回归模型
- 1950年代——深度学习模型及非监督学习方法(如遗传优化方法)与聚类分析
- 20世纪60年代初至70年代初期间的主要研究方向包括决策树模型及k近邻分类法
- 20世纪九十年代末至20世纪末期间的研究热点包括支持向量机技术及机器学习中的关键算法(如adaboost与pagerank)
三、十大数据挖掘算法
注:十大数据挖掘算法由众多学术界人士推荐,并筛选出在广泛应用程度高的领域内发表论文数量多、被广泛引用的研究成果;这些优秀成果经由专家评审最终确定为前十名的基础性 strongest 十类技术或方法;以此为基础展开介绍。
1、k近邻算法(k-nearest neighbors KNN)
可被视为一种基础算法,
其工作原理就是:
在特征空间内,
如果在一个样本附近选取k个最近且在特征空间中最邻近的样本,
并且大多数属于某一特定类别,
则该样本也被认为属于该类别。
2、决策树分类(C4.5)& 3、分类和回归(CART)
基于决策树
基于ID3决策树的算法设计中, 选择当前信息增益最大的属性来进行分支构建, 当后续划分所导致的信息增益降低到一定程度或没有可利用的属性时, 将该节点转换为叶节点, 并将该节点内出现次数最多的类别标记作为分类结果. 通过递归的方式生成这样的分类树即为ID3决策树. ID3算法无法直接处理连续值特征.
C4.5算法采用_信息增益比_来衡量分支属性的重要性,在基于信息增益的基础上,计算出的信息增量被归一化处理为相对值,从而修正选择结果时偏向于取值较多属性的问题。
此外,该算法还增加了剪枝(pruning)步骤,通过限制树的发展程度来减少决策过程划分过于精细导致的问题。
CART 将基尼系数与条件基尼系数的差异,作为评估属性重要性依据。
不同的评判标准,是这三类算法最大的不同。
4、朴素贝叶斯分类(naive bayes)
基于贝叶斯定理进行分类判断:求取其后验概率值,并将具有最高后验概率值的类别作为最终分类结果。
为什么称为‘朴素’? 这是因为该算法基于假设:对于给定的数据对象及其类别Y来说,在考虑各属性时彼此之间相互独立(conditionally independent),这种简单假设大大简化了计算过程。 由于这一基础假设的作用,在实际应用中无需关注各属性间的相互关联。
5、支持向量机(SVM support vector machine)
相较于朴素贝叶斯而言,在这种算法中我们无需关注数据的具体生成机制,而是专注于对数据进行分类处理。因此这种方法也被归类为判别式模型(discriminative model)。
原理: 在支持向量机(SVM)算法中, 每个样本都可以表示为一个向量, 在这一高维空间中, 每个属性对应一个维度, 并且这些维度反映了样本的重要特征。与大多数分类算法类似, 在这一高维空间中,默认认为同一类别的样本具有相似的属性值。因此, 在这一高维空间中存在这样一种情况: 不同类别的样本分布在不同的区域。而 SVM 的学习过程就是寻找能够将这些不同区域分开的空间决策面。由于存在多种可能的空间分割方式, 在实际应用中 SVM 会选择其中一种最优的方式具体来说, 在这种情况下 SVM 会选择两个区域之间的最中间位置作为决策面也就是说, 在距离所有几个区域都尽可能远的位置确定这个决策面
这个问题就是求解一个有约束的优化问题。有一些可变通的情况。
一种情况是将问题分为硬间隔与软间隔两种情况。在这一种情况下,我们类似于目标规划问题中寻求最大可行解,并非传统的最优解。
另一种情况:数据本质上就是线性不可分的,在这种情况下针对这类问题引入核技巧(Kernel SVM)。其核心思想是通过将输入空间映射到高维特征空间(即升维),使得原本在低维空间中线性不可分的数据在高维空间中能够实现线性可分,并进而求解出一个最优的分类超平面。
6、关联规则挖掘(Apriori)
一个例子就是啤酒和尿布。
第一步是找出频繁的项集(frequent item set)
每次可以从仅包含单一元素的集合开始搜索,并去除不常见的项后,在通过自我连接的方法寻找包含两个元素的集合。按此方式依次类推,则可寻找到左右两边具有较高频率的项集。
apriori算法在其他方面的应用还包括告警事件之间的关联挖掘、用户行为间的关联分析以及系统崩溃与程序错误之间的关联分析。
7、最大期望参数估计(expectation maximization EM)
在隐变量存在的情况下,在这种情况下对隐变量进行进一步预测或推断;作为参考案例而言;值得借鉴。

两个步骤:expectation&maximization
8、链接分析(PackRank)
由于谷歌搜索引擎而出名。
该算法主要考量了网络中的节点数和网页质量两个要素,并将这两者结合起来为网页分配重要性排序。通过计算得出的 webpage 重要性排序完全由其背后的网络连接结构决定,并不受影响于用户的搜索查询信息。由此可见,在多数情况下, PageRank 算法能够实现离线运行
缺点:无法抵御链接攻击,对新网页不公平。
9、集成算法(Adaboost adaptive boosting)
主要思路集中在同一个训练数据集合内,在每一次实验中不仅关注每个样本是否正确分类,并且结合整体准确率进行分析。随后根据上一步骤的结果对各个样本的权重进行相应的调整,并在此基础上逐步生成多个不同的分类模型。最终将这些独立训练出来的分类模型组合在一起以形成一个强大的集成学习器。
采用类似的方法可以帮助学生通过这种方式进行多次训练。
集成算法就包括:随机森林、Boost
10、k均值聚类(k-means)
最常见的聚类算法
四、数据挖掘平台
该书的作者开发了一个名为FIU-Miner的数据挖掘平台。其名称即为FIU-Miner。该系统意在提供分布式环境中的高效整合与易用的数据挖掘解决方案。
我原本以为这个平台具体的应用场景和使用方法是什么呢?然而,在书的后续章节中也未曾提到过此平台。
总结: 在本书的第一章《数据挖掘简介》中, 对数据挖掘进行了概述。该章节还涵盖了主要算法思想的内容也进行了简明扼要的阐述。然而仅作为初步介绍, 这导致读者形成了基本了解。
