Advertisement

大数据时代入门<二>——数据挖掘方法和技术 理论篇

阅读量:

大数据时代入门<二>——数据挖掘方法和技术 理论篇

目录

文章目录

  • 大数据时代入门<二>——数据挖掘方法和技术 理论篇
      • 目录

###概述
数据挖掘方法依据的基本原理主要有:

1. 信息论,主要是计算数据库中属性的信息量,如ID3、IBLE等方法

2. 集合论领域中采用基于包含关系的方法(如粗集方法、AQ11算法),或者通过计算数据项在整体集合中的占比来实现分类任务。

仿生物技术将生物体运行规律转化为数学模型,并以此为工具去解答实际领域中与生命现象相关的非生命现象的问题(如神经网络系统、遗传算法等)。

4. 人工智能技术主要是基于启发式的搜索手段进行应用,并采用BACOM及FDD等具体方法进行实现

5. 可视化技术,主要是利用图形显示技术

当前的研究重点集中于归纳学习的方法领域

这类信息论方法基于信息论理论基础建立决策树模型。在相关文献中通常将其称为基于知识表示形式的决策树方法,在实际应用中表现出良好的应用效果和广泛的影响力。

信心轮方法中较有特色的方法有以下几种。

####1. ID3等方法(决策树方法)

Quiulan研制的ID3方法是利用信息论中互相信息(Quiulan称为信息增益)寻找数据库中具有最大信息量的字段,建立决策树的一个结点,再根据字段的不同取值建立树的分支,再由每个分支的数据子集重复建树的下层结点和分支的过程,这样就建立了决策树。这种方法对数据库越大这种方法效果越好。ID3方法在国际上影响很大。ID3方法以后又陆续开发了ID3、ID5、C4.5等方法。
####2. IBLE方法(决策规则树方法)
IBLE方法,是利用信息论中信道容量,寻找数据库中信息量从大到小的多个字段的取值建立决策规则树的一个结点,根据该结点中指定字段取值的权利之和与两个阀值比较,建立左中右三个分支,在各分支子集中重复建树结点和分支的过程,这就建立了决策规则树。IBLE方法比ID3方法在识辨率上提高了10个百分点。以后又研制了IBLE-R方法。
###归纳学习的集合论方法
集合论方法是开展较早的方法。近年来,粗糙集理论的发展使集合论方法得到了迅速的发展。这类方法中包括覆盖正例排斥反例的方法(典型的方法是AQ系列方法)、概念树方法和粗糙集(Rough Set)方法。关联规则挖掘方法也属于集合论方法。
####1. 粗糙集(Rough Set)方法
在数据库中将元素看成对象,列元素是属性(分为条件属性和决策属性)。等价关系R定义为不同对象在某个(或几个)属性上取值相同,这些满足等价关系的对象组成的集合成为该等价关系R的等价类。条件属性上的等价类E与决策属性上的等价类Y之间有三种情况:

  1. 下近似:Y包含E;
  2. 上近似:Y和E的交非空;
  3. 无关:Y和E的交为空。
    对下近似简历确定性规则,对上近似简历不确定性规则(含可信度),无关情况下不存在规则。
    ####2. 关联规则挖掘
    关联规则挖掘是在交易事物数据库中,挖掘出不同项(商品)集的关联关系,即发现哪些商品频繁地被顾客同时购买。

在数据库D中进行关联规则挖掘时会筛选出一组特定的商品组合即同时包含商品A与商品B的概率值P(AB)其数值需高于设定的支持度min_sup值随后还需满足在所有包含了商品A的商品集合中也必然包含商品B的概率P(A|B)超过设定的信心度min_conf水平满足以上条件则可得出关联规则A→B

覆盖正例排斥反例的方法是基于找出所有正例并排除所有反例这一原理来进行规则挖掘这种方法具有明确性与高效性具体实施过程中可以通过改进型算法如Michalski提出的AQ11方法以及洪家荣优化的AQ15和AE5算法来实现

AQ系列的核心算法是通过在正例集中随机选取一个种子来进行操作,并将其与反例集进行计算比较。在字段取值构成的子集出现不兼容的情况下舍去该部分,在出现冲突时保留符合条件的部分。按照这一原则,在所有正例种子上进行循环处理后,则会得到由这些选择子组成的合取逻辑形成的规则

AE系列方法是在扩张矩阵中通过特征维度上区分正反例的字段值识别出共性路径(规则)。
####4. 概念树方法
数据库中记录的属性字段通过分类整合的方式组织形成层次结构称为概念树。具体而言,在"城市"概念树中,在最底层我们有具体的地名如长沙和南京;接着往上一层则是省名如湖南与江苏;再往上就是国家层级如华南和华东;最后汇聚到国家层面如中国和日本。

通过概念树提升策略有效地精炼数据库中的元组信息;各属性字段的概念树构建完成后,则可生成高度概括的知识库基础表;随后将其转化为决策规则

基于仿生学原理的神经网络方法

典型的仿生物技术包括神经网络方法与遗传算法;这两种方法各自发展出独立完善的理论体系;在数据挖掘领域具有广泛的应用价值;可整合归纳至整体上构成仿生学技术体系

神经网络方法模拟了人脑神经元的结构,并基于MP数学模型与Hebb学习规则构建了三类不同类型的神经网络模型。
####1. 前馈型网络
其典型代表包括感知机、BP反向传播模型以及函数型网络等技术体系。
此类技术体系在预测分析与模式识别等方面表现突出。
####2. 反馈型网络
其主要代表是Hopfield的离散型与连续型模型。
这类系统在联想记忆功能方面具有独特优势。
####3. 自组织型网络
其主要应用领域包括ART与Kohonen两种类型。
这些方法在数据聚类分析方面取得了显著成效。

神经网络的知识反映在权值设定上,并形成一个由大量参数构成的复杂网络模型。其学习过程表现为通过反复迭代或累加运算逐步优化权值配置的状态变化特征

生物仿生技术中的遗传算法模拟的是生物进化机制,在算法框架中包含三个核心操作步骤

繁殖过程

交叉操作

变异操作

这种遗传算法能够有效生成优良后代。这些后代必须满足适应度要求,在经过多代遗传演替后将会产生符合需求的后代(问题解决方案)。遗传算法已在优化计算的分类机器学习方法中展现出显著的应用价值。

在工程与科学数据库(基于实验数据)中,借助人工智能驱动的启发式搜索方法(即反复迭代计算),对若干个数据项(变量)执行特定数学运算操作,则可推导出相应的数学表达式或关系式。

数据分析可视化旨在生成二维或三维业务数据集的图形表示方法,在帮助用户直观了解业务信息的同时提升知识提取能力及决策深度。例如,在数据分析领域中, 多元时间序列(MTS)图形与多元表格表征了多元时间序列的数据展示方式. 通过直方图(二维形式)、柱状图(三维形式)、饼状图表、折线趋势图表以及扇环分布图表等多种图表形式, 可以更加直观地展示出各项指标之间的对比关系及趋势变化。

创建具有可视化功能的数据挖掘模型是进行可视化数据挖掘的基础。通过这些模型能够识别和分析业务数据中的潜在规律,并为商业决策提供支持同时预判市场中的新兴机遇。

可视化技术的基本工作如下。

  1. 提取几何图元
  2. 绘图
  3. 显示和演放

参考:

《Data Warehouse》 (W.H. Inmon)

《Data Warehouse: A Tutorial Introduction to Data Mining and Knowledge Discovery》清华大学出版社陈文伟

全部评论 (0)

还没有任何评论哟~