数据挖掘(DM)
数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。
数据挖掘常与计算机科学领域紧密相连,并通过一系列具体的技术手段如统计分析、实时数据分析处理、信息检索技术以及机器学习算法等手段来完成这一任务。其中,专家系统(主要依赖于经验法则)也被纳入其中。
数据挖掘是人工智能与数据库领域研究的重要议题之一,在这一过程中我们关注的是从大量数据库中提取出潜在有用信息的过程。具体而言,在这一过程中我们主要基于人工智能技术、机器学习方法以及模式识别等多种技术手段,在数据库中实现对企业的海量数据分析,并通过归纳推理的方式揭示出潜在的知识模式。这些分析结果不仅能够帮助决策者优化市场策略以降低风险,并且还可以促进更加科学合理的决策制定过程。在知识发现的整体流程中主要包括三个关键环节:首先是对数据进行前期准备;其次则是执行数据分析以提取有用信息;最后是对获取到的结果进行展示与解读以便于知识利用。
进行数据分析以揭示隐藏模式的技术被称为数据分析挖掘(DM)。它主要包括三个关键环节:首先是数据准备阶段;其次是模式发现过程;最后是结果呈现阶段。具体来说,在第一阶段(即DM过程),我们需要从相关资源中选择所需信息并整合为适合后续处理的数据集合;在第二阶段(即DM方法),利用特定算法或技术识别出潜在模式的过程;而在第三阶段(即DM表现),则通过可视化或其他易于理解的方式展示发现的信息。此外,在DM的应用场景中,则涵盖了关联规则挖掘(Association Rules)、聚类分析(Clustering Analysis)、分类模型构建(Classification Models)以及异常检测等多种技术与方法
近年来,在信息产业界引起了广泛关注的数据挖掘技术,在过去几年中受到了极大的重视。这一现象的主要原因在于海量数据的存在以及它们能够被广泛应用于各个领域;而且这些数据迫切需要被转换为有价值的信息与知识以供利用。生成的信息与知识能够被广泛应用到商务管理、生产控制、市场分析、工程设计以及科学探索等多个方面。在技术和方法论层面上而言,则来源于多个领域的思想:首先是以统计学为基础的抽样估计及假设检验的方法论基础;其次是人工智能及其相关领域中的搜索算法与建模技术;此外还有机器学习理论的支持;而最优化理论、进化计算以及信息论等领域的研究成果也对这一领域的发展起到了积极的作用;此外信号处理、可视化技术和信息检索方法同样提供了重要的技术支持;特别值得一提的是数据库系统的高效存储索引与查询处理能力对于这一领域的发展至关重要;而高性能计算(尤其是并行计算)技术在处理大规模数据集时通常扮演着关键角色
产生背景
20世纪90年代末期,在数据库系统迅速普及以及网络技术高速发展的背景下,数据库技术迎来了新的发展阶段。过去仅管理简单的文本、数字等静态数据的时代已经结束,并发展出能够管理图形、图像、音频、视频等多种动态复杂数据的新体系。随着应用范围不断扩大,数据库所处理的数据量也呈现出越来越大的规模。它不仅为人类提供了大量丰富的信息资源,在信息化时代还展现出显著的海量特征。然而,在这个信息爆炸的时代背景下,《信息状态转移距离》(简称DIST或DIT)是对一个事物从某一状态转移到另一状态所遇到障碍的一种度量指标。(此处可补充说明该概念的具体内涵)这一理论被称为"信息丰富而知识贫乏"的现象,并因此引发了人们的深思:如何在海量数据中发现有价值的信息并加以提取?正是出于这一需求,《数据挖掘技术》应运而生。
数据挖掘对象
数据形态包括结构化、半结构化以及异构类型。获取知识的方式涵盖数学方法、非数学途径以及归纳策略。所获取的知识可用于信息管理、查询优化、决策支持以及数据自我维护等。
数据挖掘的对象范围非常广泛。它可以涵盖多种类型的数据库系统:例如那些存储结构化数据的关系型数据库;或者如非关系型数据库所包含的那些更为灵活的数据形式(如文本信息、多媒体内容、地理空间信息、时间序列信息以及Web上的分布式信息)。
知识获取途径既可以表现为数字化形式,也可以是非数字化形式,并且还可以采用归纳式的方式进行。所获知识在信息管理方面应用,在查询效率提升方面发挥作用,在辅助决策分析方面提供支持,并且能够保障数据自身安全等。
数据挖掘步骤
在实施数据挖掘之前,则需制定执行数据挖掘的具体步骤,并明确每一步的具体内容及设定相应的目标以确保项目顺利推进取得预期效果。为了提高规划的有效性,则可参考多个软件供应商及数据分析服务提供商所提供的完整数据分析流程模型作为指导方案,在实际操作中依据自身需求选择合适的分析方法并逐步实施以实现精准的数据分析结果与决策支持功能。其中较为常用的方法包括SPSS公司所提出的5A分析模型以及SAS公司的SEMM(统计评估与评估方法)分析法等
该流程包含七个关键步骤:首先需明确问题目标;其次应构建数据分析基础;随后需深入探索数据特征;接着开展必要的数据预处理工作;之后开发预测分析工具;最后还需验证预测准确性并投入实际应用
图1 数据挖掘的系统模型
在知识发现过程中最优先且核心的前提就是深入了解数据特征以及业务背景问题。为了明确目标并指导后续建模工作,在确定具体行动方向时应确保定义清晰准确:例如,在希望提升电子信箱使用率时可以选择"提高用户活跃度"这一目标或"优化单次使用价值"这一指标作为导向依据;这两种不同的目标将导致完全不同的模型构建方向与结果评估标准;因此,在做出明确决策的基础上再进行建模会更加高效可靠。
(2)创建一个数据挖掘数据库。(2)创建一个数据分析存储平台包含以下具体步骤:首先执行数据采集工作,然后进行数据分析,接着实施模型选择,随后进行数据分析质量评估及清理工作,接着完成数据分析结果的合并与整合处理,然后构建[元分析]字段,最后完成数据分析存储平台的加载并做好日常维护工作
(3)进行数据分析。该过程的目标在于识别对预测结果影响最为显著的数据字段,并评估是否有必要创建导出字段。当数据集中包含数百上千个字段时,在浏览分析这些数据方面会耗费大量时间和精力;此时建议选择一个界面友好且功能强大的工具软件以辅助完成这一系列操作
进行数据准备是建立模型前的关键步骤。它是完成建模流程中不可或缺的重要环节。该过程可划分为四个关键环节:首先确定核心指标;其次筛选有效样本;接着开发辅助指标;最后进行数据标准化处理。
(5)构建该系统的数学模型。这是一个持续优化的过程。为了找到最适合解决当前商业问题的方案, 需要对各种可用的数学建模方法进行深入分析和评估。首先, 采用一部分原始数据进行初始建模;接着利用剩余的数据进行测试与验证, 以确保所得出的解决方案的有效性。此外, 通常会引入第三个独立的数据集(称为验证集)。由于测试集合训练阶段的数据特性可能存在差异, 因此建议使用独立于这两组数据的新集合来进行最终评估。构建该系统的数学model则要求将原始data划分为training set与testing set两部分
评估该模型的表现,在建立完成后的model中进行评估与分析是必要的
在经过模型搭建并经过验证之后,主要有两种主要的应用途径可供采用.一种是针对分析人员作为参考资料使用;另一种则是将此模型应用于不同的数据集上.
数据挖掘分析方法
数据 mining 包括有监督 mining 和无监督 mining。在有监督 mining 中, 该方法通过使用可用数据建立模型, 旨在描述或定义某个特定属性。相反, 无监督 mining 通过分析所有属性来识别潜在的关系或模式。具体来说, 在有监督 mining 中涉及分类、回归和预测等任务;而在无监督 mining 中则关注关联规则发现与聚类分析。
它首先是从数据中选择已经分好类的训练集,在这些训练集中利用数据挖掘技术来构造一个分类模型,并将其应用到那些尚未被归类的数据上。
2.估值。类似于分类,在于其输出结果均为数值型数据;不同之处在于,在线性回归中变量间的关系被建模为线性的关系;在线性回归模型中变量间的线性关系被系统地建模出来;在线性回归模型中变量之间的关系被系统地建模为线性形式;在线性回归模型中变量之间的关系被系统地建模为线性的形式;在线性回归模型中变量之间的关系被系统地建模为线性的形式;在线性回归模型中变量间的线性关系被系统地建模出来
3.预测。这一过程是采用分类或估值的方法进行的,在经过分类或估值方法训练后获得一个模型;当这一模型在测试样本集上的表现达到较高准确率水平时,则可用于对新样本中的待测变量进行预测。
4.相关性分组或关联规则。其目的是发现哪些事情总是一起发生。
5.聚类。该方法通过自动化手段识别并生成分类标准的技术。此方法基于样本间相似度评估机制,在同一簇内实现对相似对象的归类。
经典算法
现在,数据挖掘涵盖的主要类型包括神经网络方法、决策树方法、遗传算法、粗糙集理论、模糊逻辑方法以及关联规则分析等多种技术。
神经网络法
神经网络法借鉴生物神经系统结构与功能设计而成的一种人工智能模型,在模式识别与数据挖掘领域具有重要地位。其基本组成单位为神经元连接网络系统,在模拟人脑信息传递机制的基础上实现了多层非线性变换过程。该方法通过大量训练数据进行学习以实现非线性预测功能,并可完成分类识别、特征提取等多个智能分析任务。在学习机制上主要体现在权重参数的调整上:其显著优势在于具备较强的抗噪声干扰能力,并且能够有效实现复杂关系下的联想式记忆;但同时也面临着以下挑战:首先在面对高维数据空间时存在局限性;其次由于难以观察到具体的训练过程导致模型"黑箱"效应明显;最后还需投入较大的计算资源以保证学习效果的质量
决策树法
决策树根据目标变量带来的价值差异构建分类规则,并通过一系列规则对数据进行分类的过程。其表现形式类似于树形结构的流程图。最著名的是英国专家J.R.Quinlan于1986年提出的ID3算法,在此基础上开发出了广受欢迎的C4.5算法。该方法的优点在于决策过程可观察性强、描述直观简洁、易于理解性好且分类效率高;但其缺点也很明显地体现在无法很好地从多个变量组合中发现规律上。与数值型数据分析相比,决策树法特别适合处理非数值型数据以及大规模的数据分析任务。例如,在贷款审批中需要评估申请人的风险等级
遗传算法
遗传算法模仿了自然选择及遗传过程中繁殖、交配与基因突变等现象。它是一种基于进化理论的机器学习方法,并通过模拟遗传结合、交叉变异以及自然选择等操作来生成实现规则。其核心理念是"适者生存"原理,在实践中具有隐含并行性且易于与其他模型相结合的特点。它的优势在于能够处理多种数据类型,并且能够同时并行处理各种数据类型;然而它的缺点包括参数过多、编码复杂以及计算量较大。它通常应用于优化人工神经网络结构,并能解决许多传统技术难以有效解决的问题。
粗糙集法
粗集方法亦称粗集理论是由波兰数学家Z Pawlak于20世纪80年代初提出的一种新兴数学工具它在Handling Uncertain Imprecise和Incomplete Information方面具有显著作用这种理论不仅能够实现Data Reduction Data Correlation Analysis以及Meaning Evaluation等任务而且其优势在于无需依赖预先设定的数据知识并且能够自主识别问题中的内在规律然而该理论存在一个关键限制即无法直接应对Continuous Type Attribute通常需先将其转化为Discrete Form因此Continuous Attribute Discretization成为一个制约该理论广泛应用的重要难题而该理论的主要应用领域包括Approximate Reasoning Digital Logic Analysis Simplification以及Constructing Predictive Models等问题
模糊集法
基于 fuzzy 集合理论体系对问题进行多层次的 fuzzy 评判、决策以及模式识别等技术手段进行研究分析的方法被称为 fuzzy 集合法。随着系统的复杂度增加,其不确定性也相应增强。
关联规则法
关联规则揭示了事物间的相互依存关系及其内在联系。其中最著名的便是R.Agrawal等专家所提出的Apriori算法。该算法的核心思想在于首先识别出满足最低标准频率与预设阈值的所有频繁项集。继而通过这些频繁项集生成具有强相关性的关联规则。其中最低标准频率与预设阈值共同构成了发现具有实际意义的关联规则的关键参数。
换言之,在数据挖掘的过程中,则旨在从原始数据库中提取出符合最低标准频率与预设阈值的所有具有实际意义的关键信息。
存在问题
与数据挖掘相关的问题还涉及隐私保护方面。例如,在某些情况下, 一个雇主可能会利用医疗记录筛选出患有糖尿病或严重心脏病的员工, 从而试图减少保险公司的支出. 然而, 这种做法将引发伦理和法律上的争议.
在对政府及商业数据进行挖掘时所涵盖的问题可能包括国家安全或商业机密等类型。这对保密工作而言确实构成了一定难度。
数据挖掘具有广泛的应用场景,在医疗数据分析方面同样发挥着重要作用。比如,在患者的数据库中可以查询某药物与其副作用之间的联系。这种联系可能在1000人中几乎不会出现但在与药物学相关的研究项目中可以通过这种方法来降低因药物不良反应而接触病人的数量甚至有可能挽救生命然而在这一过程中仍需警惕数据库滥用的风险
数据挖掘突破了传统方法无法实现的某些功能,从而能够发现隐藏的信息;然而,在应用过程中必须严格遵循规定,并在适当的情况下提供详细的说明。
当涉及特定个人的数据收集时
