Advertisement

大数据分析与应用(中级) 数据挖掘概念及流程

阅读量:

目录

1.数据挖掘的定义

2.数据挖掘的流程

3.如何进行数据预处理

4.无监督学习和有监督学习有何区别?

5.简述常见的分类算法

1.关联规则算法4类划分方式:

2.聚类:

3.分类:

4.回归分析:

6.选择数据挖掘工具时需要考虑的因素

7.常用的数据挖掘工具

1.机器学习PAI:

2. SAS

3.Stata

4.Python

5.IBM SPSS Modeler

6.Wake

7.R语言

8.MATLAB

8.特征工程

1.特征工程定义:

2.特征工程的作用:

9.数据挖掘的演变

10.举例说明你身边的数据挖掘应用实例


1.数据挖掘的定义

  • 学术界普遍认为:涉及利用相关算法从海量数据分析中提取潜在有价值的信息的过程即是数据库知识发现(Knowledge-Discovery in Databases,KDD)的核心任务之一。
    该过程通常与计算机科学领域紧密相连,并主要采用统计分析方法、在线分析处理技术、情报检索手段以及机器学习模型等多套方法来实现其目标。
  • 在商业领域,则认为它是通过对海量存储于数据库中的原始数据分析获取新的洞见与价值规律的过程。
    对比两者的定义可以看出:
    无论是学术界还是商业界对" 数据挖掘 "这一概念的理解都围绕着" 从已有大量信息中提取潜在价值 "这一核心目标展开,
    其区别仅在于侧重点不同:
    学术界更注重理论研究与技术创新,
    而商业界则更加关注实际应用效果的提升。
    需要注意的是,
    无论是哪种定义,
    " 数据挖掘 " 的一般步骤大致可分为以下几个方面:
    首先需进行数据清理工作,
    随后整合来自不同来源的数据集,
    接着根据特定需求筛选出感兴趣的数据条目,
    之后完成必要的预处理工作,
    最后结合各种数据分析模型完成最终的目标达成。

2.数据挖掘的流程

该过程是一个围绕数据展开的逐步推进过程,在知识螺旋上升中不断深入探究的数据探索活动。整个过程包含业务分析、数据分析基础、数据预处理阶段、模型构建阶段以及方案验证环节等多个关键环节,在经过循环上升后最终完成预期目标的实际应用阶段。

(2)数据挖掘是各种分析方法的集合。

(3)数据挖掘具有分析海量数据的能力。

(4)数据挖掘的最终目的是辅助决策。

3.如何进行数据预处理

  1. 数据清洗
  2. 数据集成
  3. 数据转换
  4. 数据归约

4.无监督学习和有监督学习有何区别?

  • 无监督学习(Unsupervised Learning): 没有被标记、没有确定结果。样本数据集类别未知,需要根据样本间的相似性,对样本集进行分类(聚类)。...对无监督学习来说,就是事先没有任何训练数据样本,需要直接对数据进行建模。...关联和聚类是无监督学习最典型的应用。
  • 有监督学习(Supervised Learning): 通过已有的训练样本(即已知数据以及其对应用的输出)来训练,从而得到一个最优模型,再利用这个模型将所有新的数据样本划分为相应的输出结果,对输出结果进行简单的判断从而实现分类的目的,那么这个最优模型也具有了对未知数据进行分类的能力。
  • 区别:

带标签的数据属于有监督学习方法,在这一过程中需要通过分析训练数据集中的模式和关系来进行分类或预测任务;而未带标签的数据则采用无监督学习方法,在这种情况下主要目标是通过分析输入特征之间的潜在关系来进行聚类或其他形式的数据探索。具体而言,在有监督学习中我们通常会先利用训练数据建立模型并提取有用的知识随后再将这些知识应用到新的测试样本上;而对于无监督学习由于缺乏明确的目标类别,则主要依赖于算法内部发现数据中存在的自然结构和模式来完成任务。

2. 无监督学习方法旨在识别数据集中的潜在模式。这些模式并不一定是为了将数据划分为不同的类别(即不一定非要进行分类)。例如一组形状各异的积木块,它可以根据形状作为主要维度进行分类;同样也可以根据颜色作为另一个维度进行分类。(这一发现比有监督学习的应用范围更为广泛。例如通过对一组数据进行主成分分析或者研究数据集的关键特性都可以归属于无监督学习的方法范畴),而有监督学习则是基于已有标注数据训练出一个最佳模型(如我们使用的CNN模型正是通过有监督学习训练得出的最佳模型),应用这一最佳模型即可实现对图像场景的有效识别。

3.有监督学习追求的是基于输入数据X对变量Y进行推断(研究方法的探索)。相比之下,无监督学习则致力于通过分析数据X来揭示潜在的模式或结构(独立探究)。

5.简述常见的分类算法

1.关联规则算法4类划分方式:

根据变量属性划分的算法类别中包括多种具体的实现方式;从抽象层次出发设计的系统架构能够有效支持多粒度的数据处理;根据数据维度分析构建的数据模型能够更好地反映实际情况;依据时间序列特征开发的时间序列分析方法则能够提供精确的趋势预测。典型算法包括:AIS技术体系中的多种智能推理方法;Apriori理论在关联规则挖掘中的经典应用;SETM模型在数据仓库中的实际应用;DHP系统的高效预测能力;Partition技术在分布式计算环境下的划分策略;Sampling理论在大数据环境下的抽样方法以及FP-Growth技术在频繁项集挖掘中的优化策略等。

2.聚类:

划分法、层次法、密度法、网格方法、模型方法

3.分类:

决策树、K最近邻、支持向量机(SVM)、随机森林、朴素贝叶斯。

4.回归分析:

回归分析法

6.选择数据挖掘工具时需要考虑的因素

  • 支持生成的模式类型范围
    • 应对复杂挑战的有效性
    • 执行操作的速度
    • 数据访问能力
    • 与其他系统或产品之间的交互机制

7.常用的数据挖掘工具

常用的...数据挖掘工具包括阿里云机器学习平台及其相关软件等

1.机器学习PAI:

PAI最初服务于阿里巴巴集团内部(如淘宝网、支付宝以及高德等应用),旨在帮助公司内部开发者以更加高效便捷的方式使用人工智能AI技术。经过持续发展与完善,在2018年实现了全面商业化运营,并已汇聚了上万个企业客户及个人开发者的支持与使用。目前该平台已成为中国领先的云端机器学习解决方案之一

PAI底层支持多种计算框架:

  • 流式计算平台Flink。
  • 开源官方版本下的机器学习平台TensorFlow进行了性能优化。
  • 拥有海量特征数据的参数服务器系统支持大规模并行计算。
  • Spark及其变体如PySpark和MapReduce等是当前工业界广泛采用的主流开源平台。

PAI的优势:

服务支持采用单一形式或混合形式提供。该方案提供全自动化机器学习解决方案,并要求用户仅需准备好并存储训练数据在OSS或MaxCompute中即可完成后续工作流程。涵盖从数据准备到部署部署的所有流程(包括数据上传、数据预处理、特征工程、模型训练、模型评估以及最终的模型发布至离线或在线环境)均可通过PAI平台轻松实现

  • 针对DataWorks平台进行集成与扩展支持,在SQL查询、自定义函数(UDF)、高级聚合函数(UDAF)以及MapReduce等多种数据处理模式下实现高效运行。
    • 实验流程严格按照DataWorks系统架构设计,在定期任务运行机制下完成模型训练工作,并通过区分生产环境与开发环境的任务配置实现动态数据安全隔离。

2. SAS

(全称STATISTICAL ANALYSIS SYSTEM,简称SAS)是一个模块化且集成化的大型应用软件系统。它由众多专用模块组成,并承担着数据存取与处理、应用软件开发以及相关分析技术的任务。该系统以其强大的功能著称,并具备全面的统计分析方法;支持全新的技术架构;操作简便且灵活;还提供了在线帮助系统。

3.Stata

Stata是一个集成化的数据分析与管理平台,在其软件包中包含了从基础统计到高级分析的一系列强大功能模块. 包括线性混合效应模型、平衡性分析、循环迭代以及持续改进的多项式普罗比模式. 利用Stata生成的统计图形具有较高的美观度. 该软件以其高效的计算能力和准确无误的数据处理著称,并且提供了全面的数据管理能力.

4.Python

Python是一种免费开源的编程语言,在实用性和功能上常与R并驾齐驱。然而,在易用性和学习曲线方面相对容易掌握,并具有较高的可操作性。许多用户发现,在几分钟内即可启动数据处理工作,并能深入分析其复杂度较高的亲和性指标。为了实现常见的商业数据分析任务可视化目标,只需掌握变量、数据类型、函数、条件、语句以及循环等基础编程概念就可以轻松完成相关操作。

5.IBM SPSS Modeler

IBM SPSS Modeler工具工作台擅长处理大型文本分析项目,并拥有高度评价的可视化界面。该平台能够支持在多种编程环境下创建各种数据挖掘算法。它被广泛应用于异常检测、贝叶斯网络分析、CARMA建模以及Cox回归方法,并且能够构建基于多层感知器的反向传播学习的基本神经网络模型。

6.Wake

怀卡托知识分析环境(Wake)是由新西兰怀卡托大学研发的一套基于Java的机器学习软件系统。该系统不仅具备强大的数据分析功能,并且集成了一套完整的预测建模算法库以及可视化工具集,并配有友好的图形用户界面辅助操作。Wake系统能够执行多种标准的数据挖掘任务:具体来说,则涉及数据预处理、聚类分析、分类模型构建、回归分析以及结果展示与特征选择等功能。

7.R语言

R是一种主要用于统计计算、数据分析以及数据可视化展示的编程语言与软件平台。它最初由 Ross Ihaka 和 Robert Gentleman 于新西兰奥克兰大学创立,并已在当前由 R 项目核心团队持续维护和发展。该编程语言以其广泛的使用范围而闻名,在统计领域占据主导地位。

8.MATLAB

MATLAB是由美国Mathworks公司开发的商业化专业数学软件,在科学计算、工程分析以及技术支持等方面具有重要应用价值。该软件提供了丰富的人机交互功能与强大的数值运算能力,并支持多种编程接口以满足不同领域的技术需求;它主要包含MATLAB核心语言及Simulink建模与仿真工具两部分。

8.特征工程

1.特征工程定义:

特征工程是一种将原始数据转换为适合机器学习模型进行训练的数据处理技术手段。其主要目标是提取或生成更有价值的特征信息,并通过这些优化后的训练数据使机器学习模型能够尽可能接近或达到理论上的最佳性能水平。

2.特征工程的作用:

  • 将原始数据转化为更有助于提取机器学习核心价值的新特征
    • 结合实际业务背景进行设计使新特征更加直观易懂
    • 在业务场景中设计贡献度更高的关键指标
    • 充分挖掘现有数据蕴含的价值潜力
    • 增加更多的属性字段相当于扩展了训练集不仅充分利用现有的学习资源还能发挥计算能力的优势从而显著提升模型准确率和预测能力
    • 通过整合非结构化信息丰富模型输入的数据维度
    • 按照工程化的思路引入外部补充信息形成多维度的特征集合以增强模型泛化能力
      (好的特征通常降低了算法复杂度提升了模型性能效果显著这些特性往往来源于对原始数据深入挖掘与创新性构建)

9.数据挖掘的演变

1. 第一阶段为电子邮件服务: 上世纪七十年代初,在美国高速信息网络建设的推动下,网络信息技术呈现出年增长率几倍的增长态势。在此期间所采用的一种基于独立系统的数据挖掘技术,在该时间段内支持一个或多个模型的应用。

2.第二阶段(20世纪90年代): Web技术的创新推动了网络信息呈现出飞速发展的态势,在这一时期中许多企业在采用一种较为粗放的营销策略;而该阶段的数据挖掘技术则发展为能够整合多种不同的数据 mining 模型进行协同工作。

第三阶段的电子商务时代:进入21世纪初期后,IBM、HP、Sun等主要的技术巨头将互联网转化为通用的商业信息网络,这一时期的数据显示挖掘技术不仅具备了对数据进行管理和整理的能力,还成功整合了预测性模型系统

4.第四阶段全程电子商务阶段: SaaS软件服务模式的发展确实延长了电子商务产业链;基础性数据挖掘任务已经发展成为一门独立的学科;在这一阶段的数据挖掘技术中会整合移动数据以及各种计算设备的数据进行有机融合。

10.举例说明你身边的数据挖掘应用实例

  1. 恶意程序的智能化识别
  2. 生物数据分析在生物信息学中的应用
  3. 基于大数据分析的信用卡违约风险评估
  4. 地质灾害风险的数据化预测模型
  5. 教育大数据分析模式研究

全部评论 (0)

还没有任何评论哟~