Advertisement

数据挖掘建模过程

阅读量:

数据挖掘建模过程

1.定义挖掘目标

针对具体的数据挖掘应用需求,在开展工作之前必须明确本次的核心目标是什么?系统最终将实现哪些功能?因此,在深入研究应用场景之前必须进行充分的准备工作:首先需要深入研究应用场景涵盖的专业知识;其次需要掌握背景知识;最后需要明确用户的具体需求。只有当我们的目标范围被明确界定之后才能最大限度地发挥其潜力。

2.数据取样
  • 明确挖掘目标之后,取样本数据集

标准:

  1. 相关性
  2. 可靠性
  3. 有效性

样本只是全部数据中的一个子集:通过这种方式可以实现以下优势:

  1. 减少计算开销
  2. 降低存储需求
  3. 更能体现其内在规律
  • 注意:必须保证取样的严格性
    • 标准
      资料全面无误
      各项指标一应俱全
      数据精确可靠
      (非异常情况下)的表现

从获取的数据中可以进行抽样操作。
随机采样的特点是,在这种情况下,数据集中每一组观测值被选中的机会均等。
例如,在以10%的比例从某个数据集进行随机采样时,则每组观测值有10%的概率被选中。
等距采样的具体实施方法是将样本总体按照相等的距离间隔抽取样本。
例如,在一个包含103=5×23=... 组观测值的数据集中以5%的比例进行等距采样,则每隔2^3+3=... 个单位抽取一组数据(即第... 组)。
分层采样的核心步骤包括将总体划分为若干层次或子集,并确保每个层次中的样本具有相同的入选概率。
然而,在不同层次之间可以选择不同的入选概率以适应特定需求。
这种做法通常能提高样本的代表性,并使模型预测的准确性得到提升。

基于起点取样的方法:该取样策略是从输入数据集的初始位置开始执行操作。 通过设定为某个比例的方式或指定选择样本的数量来调节抽取的数量。

  • 分类抽样:基于前述几种抽样方法中并未考虑抽取样本的具体数值。它根据某种属性特征选择相应的数据子集;例如按照客户类别进行分组或者按照地理区域进行分组等。其选取策略与前述提到的方式一致,并非单独地仅针对某一个类别。
3.数据探索
  • 异常值分析
  • 缺失值分析
  • 相关分析
  • 周期性分析等
4.数据预处理
5.挖掘建模
6.模型评价

全部评论 (0)

还没有任何评论哟~