Advertisement

【HCIE-BigData-Data Mining课程笔记(一)】数据挖掘介绍

阅读量:

数据挖掘介绍

文章目录

  • 数据挖掘介绍
    • 1.数据挖掘概述
    • 2.数据挖掘基本流程
    • 3.数据挖掘开发

1.数据挖掘概述

1.1 数据挖掘典型应用场景

复制代码
    金融	数字政府	智慧园区	电商
    
    
      
    

1.2 数据挖掘概述

复制代码
    数据挖掘:通过对大量的数据进行分析,以发现和提取隐含在其中的具有价值的信息和知识的过程
    大数据:无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。
![大数据和数据挖掘关系]()
    
    
      
      
      
    

2.数据挖掘基本流程

2.1 数据挖掘模式分类
根据训练数据是否拥有标记的信息:

复制代码
    监督学习	半监督学习	非监督学习
    
    
      
    

根据应用角度:

复制代码
    分类:对现有的数据进行学习,得到一个目标函数或规则,把每个属性集x映射到预先定义的类标号y上
    回归:通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来确定模型的各个参数。然后评价回归模型是否能很好地拟合实测数据
    聚类:在没有数据标签的情况下还要对数据进行分类。将数据对象分为多个类或者簇。目标是:在同一个簇中的对象之间具有较高的相似度,而不同簇中对象差别较大。
    神经网络:由众多的神经元可调的连接权值连接而成。具有大规模并行处理,分布式信息存储,良好的自组织自学习能力等特点
    预处理:缺失值、重复值、单位不统一
    特征选择:将高维空间的样本通过映射或者是变幻的方式转换到低纬空间,以达到降维的目的。通过特征选取,删选掉一些冗余的和不相关的特征来进一步降维
    
    
      
      
      
      
      
      
    

2.2 数据挖掘流程
CRISP-DM模型

复制代码
    Cross industry Standard Process跨行业数据挖掘标准流程。是当今数据挖掘业界通用流行的标准之一。它强调数据挖掘中的技术在商业中的应用,是用以管理并指导数据挖掘有效准确的开展数据挖掘工作以期获得最佳挖掘成果的一些列工作步骤的规范标准。
    
    
      
    

商业理解(Business Understanding)

复制代码
    从商业角度理解项目的目标和要求,然后把理解转化为数据挖掘问题的定义和一个旨在实现目标的初步计划。
    
    
      
    

数据理解(Data Understanding)

复制代码
    数据理解阶段开始于原始数据的收集,然后是熟悉数据,标明数据质量问题,探索数据进而对数据初步理解,发觉有趣的子集以形成对隐藏信息的假设。
    
    
      
    

数据准备(Data Preparation)

复制代码
    数据准备阶段包括所有从原始的未加工的数据构造最终数据集的活动(这些数据集指将要嵌入建模工具中的数据)。数据准备任务可能被实施多次,而且没有任何规定顺序。包括数据选择、数据清洁、数据创建、数据合并、数据格式化。
    
    
      
    

建立模型(Modeling)

复制代码
    选择各种建模技术,对它们的参数进行校准以达到最优值
    
    
      
    

模型评估(Evaluation)

复制代码
    结果评估	过程回顾	确定下一步工作
    
    
      
    

模型实施(Deplyment)

复制代码
    模型的创建并不是项目的结尾,建模的目的是增加对数据的了解
    
    
      
    

3.数据挖掘开发

3.1数据、属性和度量
标称属性

复制代码
    标称属性是一些符号或事物的名称。
    每个值代表某种类别、编码、状态,一次标称属性又被看做是分类的(categorical)
    标称属性的值不具有有意义的序,而且不是定量的。
    
    
      
      
      
    

二元属性

复制代码
    二元属性是一种标称属性,只有0和1两个状态
    二元属性又称为布尔属性,如果两种状态对应的是true和false
    
    
      
      
    

序数属性

复制代码
    属性对应的可能的值之间具有有意义的序或秩评定
    
    
      
    

标称、二元、序数属性都是定性的,即,它们描述对象的特征,而不给出实际大小或数值

数值属性

复制代码
    是定量的可度量的量,用整数或实数表示。
    可以是区间标度的或比率标度的
    
    
      
      
    

离散属性与连续属性

复制代码
    离散属性:具有有限个或无限个可数个数
    连续属性:如果属性不是离散的,则它是连续的
    
    
      
      
    

数据集的类型

复制代码
    数据集:很多数据对象组成的集合。
    训练集:用来训练模型
    测试集:用来评估模型和预测数据
    数据集的一般特性:维度,稀疏性,分辨率
    
    
      
      
      
      
    

数据汇总统计

复制代码
    汇总统计是量化,用单个数或数的小集合捕获可能很大的值集的各种特征
    中心趋势度量:均值、中位数和众数
    度量数据散步:极差、四分位数、方差、标准差和四分位极差
    
    
      
      
      
    

3.2数据挖掘开发工具

复制代码
    MLS、Python、Spark Mlib、Rapid Miner、IBM SPSS Modeler、Oracle Data Mining
    
    
      
    

数据挖掘学习路径

复制代码
    统计学:概率论和数理统计、线性代数
    数据处理:ETL、清洗
    算法:神经网络、线性回归、SVM、贝叶斯、集成学习、逻辑回归、决策树
    模型评估与选择:经验误差与过拟合、偏差&方差、性能度量、模型评估、比较检验
    模型优化:降维、特征选择
    数据分析
    数据仓库:OLAP、OLTP、多维数据模型
    可视化
    
    
      
      
      
      
      
      
      
      
    

全部评论 (0)

还没有任何评论哟~