Advertisement

数据挖掘基本流程

阅读量:

数据挖掘基本流程

数据挖掘基本流程:
  1. 商业理解:基于商业视角审视项目需求,并借助数据分析助力业务发展。
  2. 数据理解:聚焦于 Phone 部分数据进行深入分析, 以此形成初步的数据认知。
  3. 数据准备:系统性地收集并经过清洗、整合处理的数据, 为后续的数据挖掘做好充分准备。
  4. 模型建立:综合运用多种算法模型, 并反复优化调参流程, 以期获得更为准确的分类结果。
  5. 模型评估:全面评估模型性能, 并细致检查每一步骤, 确保能够满足商业目标的要求。
  6. 上线发布:将通过数据分析发现的关键点转化为用户易于使用的解决方案或为业务创造价值的具体措施。
数据挖掘十大算法:
  • 分类方法包括决策树(C4.5)、贝叶斯分类器(Naive Bayes)、支持向量机(SVM)、k近邻算法(KNN)、增强学习器(Adaboost)以及决策树模型(CART)。

    • 聚类技术主要涉及K-Means聚类方法以及基于期望的最大似然估计法的EM算法。
    • 关联规则挖掘常用Apriori算法。
    • 网页排名技术则采用PageRank算法。

C4.5

作为一种类型的决策树,在构建决策树的过程中被用来剪枝,并且能够支持处理连续型属性以及不完全的数据。

朴素贝叶斯

概率理论的核心思想是通过计算该未知物在各类别条件下的发生概率来实现对未知物体的分类分析,并将该未知物分类为具有最高条件发生概率的那一类。

SVM

建立超平面

KNN

每个样本都可以用它最邻近的K个样本来代表。

AdaBoost

构建分类器的提升算法,可将多个弱分类器组成一个强分类器。

CART

决策树的一种,分类回归树。

Apriori

该算法旨在挖掘关联规则,在数据挖掘领域具有重要地位。该算法通过识别频繁项集来揭示物品间的联系,在商业挖掘、网络安全等众多领域均有广泛应用。所谓频繁项集即指那些在数据集中频繁出现在一起的物品集合;这些关联规则暗示着不同物品之间可能存在较强的联系。

K-Means

属于聚类算法,计算新点与K个中心点的距离,归类为距离最近的类别。

EM

Expectation-Maximization(EM)算法用于推断隐变量并实现参数的最大似然估计。其基本原理如下:在统计模型中存在两个相关联的变量A与B,在仅有一个变量可观察的情况下(例如已知变量A),可以通过观测到的数据推断出另一个不可直接观测的变量(例如变量B)。反之亦然——已知变量B同样可以帮助推断出另一个不可直接观测的变量(例如变量A)。迭代过程从初始猜测值开始逐步优化直至达到稳定状态完成计算。

PageRank

PageRank算法源于对学术论文影响力评估的方法论研究,在搜索引擎优化领域尤其受到广泛关注。当某篇学术论文被引用的频率越高,则表明其学术影响力越大。同样地,在网页排名技术的发展历程中,在搜索引擎优化领域尤其受到广泛关注的是PageRank算法的应用:当某个网页能够指向更多的目标网页时,则说明该网页拥有较高的外部链接数量。基于这一理论基础,在实际应用中我们可以通过构建相应的指标体系来实现对网站综合价值水平的有效评估。

数据挖掘的数学原理:

概率论与数理统计

是数据挖掘的重要数学基础

线性代数

向量、矩阵的各种运算

图论

图论对网络结构的分析十分有效,同时还可用于关系挖掘和图像分割

最优化方法

用最短的时间收敛和取得更好的效果

全部评论 (0)

还没有任何评论哟~