Advertisement

1.数据挖掘:需要了解的基本概念

阅读量:
    • 什么是数据挖掘?

通过数据分析大量的数据来进行信息与知识的提取与挖掘过程。

    • 数据挖掘与数据分析的区别?
    • 数据挖掘的流程?

CRISP-DM(跨行业数据挖掘标准流程)代表了Cross Industry Standard Process —Data Mining这一术语,并被广泛应用于当今的数据挖掘领域作为通用且流行的规范之一。它特别注重将数据挖掘技术应用于商业场景中,并提供了一系列用于规范地管理和指导Data Miner高效、准确地执行数据挖掘工作的规范性工作步骤。

CRISP-DM模型的基本步骤包括:

  • 商业理解:

在项目初期阶段主要侧重于从经济效益出发进行分析研究项目目标与需求之间的关联性,并将其转化为数据挖掘问题的具体定义以及制定出一个具体可行的实施规划以实现既定目标。具体来说包括以下几个方面:市场调研、客户分析以及数据收集等环节。

明确业务目标:考察项目所处的环境;从业务角度审视项目的目标与需求;明确衡量成功的关键指标;

项目可行性分析:分析拥有的资源,条件和限制,风险估计,成本和效益估计;

设定数据挖掘的目标:清晰地阐明数据挖掘的目标及其成功标准时,需区分两者在内涵上的显著差异——前者侧重于技术层面的操作(如构建分类模型),后者则关注整体战略规划(如客户细分)。其中的数据挖掘目标通常涉及生成可解释性较高的结果(如决策树),而业务目标则更多关注战略性的成果(如市场细分)。

提出项目计划:对整个项目做一个计划,初步估计用到的工具和技术。

  • 数据理解:

在数据分析的过程中,在识别出潜在的问题之前,在深入探索这些数据之前,在分析过程中,在识别出潜在的问题之前,在深入探索这些数据之前,在分析过程中

获取与本项目相关的原始数据

描述数据:对数据做一些大致的描述,例如记录数、属性数等,给出相应报告;

探索数据:对数据做简单的统计分析,例如关键属性的分布等;

检查数据质量:包括数据是否完整、数据是否有错、是否有缺失值等问题。

  • 数据准备:

在构建最终数据集的过程中涉及了从原始未加工数据中提取所有相关信息(其中的数据集合指的是将要被整合到建模工具中的那些信息)。这些准备工作可能会被重复执行,并且没有固定的操作顺序。它们主要包括挑选表格、记录以及属性等元素,并根据建模工具的要求对数据进行相应的处理方式。具体来说:

数据选取:基于数据挖掘目标及分析对象的质量特征挑选适合的数据集合;其中包括从候选表空间中挑选合适的表空间结构、从元组库中选取具有代表性的元组以及从属性维度中筛选关键属性信息;

数据清洁:提高选择好的数据的质量,例如去除噪音,填充缺失值等;

数据创建:在原有数据的基础上生成新的属性或记录;

数据合并:利用表连接等方式将几个数据集合并在一起;

数据格式化:把数据转换成适合数据挖掘处理的格式。

  • 建立模型:

在此阶段的主要工作是主要涉及采用各种建模方法,并对其参数进行优化设置以获得最佳效果。一般情况下,在处理同一类型的数据挖掘问题时会使用不同的模型技术来解决类似的问题目标与分析目标之间的差异性需求等任务的具体实施情况而言这些方法往往具有不同的适用范围和局限性因此可能需要回到数据预处理阶段进行进一步的补充与调整

选择建模技术:确定数据挖掘算法和参数,可能会利用多个算法;

测试方案设计:设计某种测试模型的质量和有效性的机制;

模型训练过程:基于准备好的数据集运行数据挖掘算法以生成相应的模型;

模型测试评估:按照预设的测试方案实施测试,在基于数据挖掘技术的角度分析下评估数据 mining 目标是否达成为目的

  • 模型评估:

在项目的这一阶段,在数据分析的基础上构建了单一或多个模型,在经过全面评估后发现该模型具有较高的质量水平。在最终部署该模型之前实施关键验证步骤至关重要——不仅需要对模型进行全面评估,并且要详细审查构建该模型的各项基础工作流程以确保其能够实现商业目标。这一关键阶段的主要关注点在于确认是否存在一些重要的商业问题尚未被充分考虑。关于数据挖掘结果的应用决策应在此阶段结束后明确确定具体包含哪些方面

结果评估:从商业角度评估得到的模型,甚至实际试用该模型测试其效果;

过程回顾:回顾项目的所有流程,确定每一个阶段都没有失误;

明确下一步的工作任务:基于对评估结果以及回顾整个过程所得出的结论的基础上进行分析判断,在此基础上决定是继续部署该挖掘模型还是从某个阶段重新开始。

  • 模型实施:

模型构建通常并非项目 conclude 的终点。即便建模的目标是增进对数据的理解,在完成建模后还需要将所获知识系统化,并以易于客户理解的方式展示出来。具体而言:

实施计划:对在业务运作中部署模型作出计划;

实施与管理计划:应如何评估模型在实际应用场景中的应用情况?应采取哪些措施来优化并保持模型性能?

作出最终报告:项目总结,项目经验和项目结果;

项目回顾:回溯项目的实施路径,归纳经验教训;进行效果预判分析。

    • 数据和属性类型?
  • 现实中的数据一般有噪声、数量庞大并且可能来自不同数据源。

  • 数据集由数据对象组成,一个数据对象代表一个实体。

  • 数据对象:又称样本、实例、数据点或对象。

按照数据元组的形式将它们存放在数据库中;对应的每一行都代表一个数据对象;各个列则分别代表属性。

属性代表一个数据字段,在文献研究中用于体现数据对象的特征。属性与维度、特征以及变量这些术语在文献中是可以相互替代使用的。

  • “维”,一般用在数据仓库中。

  • “特征”,一般用在机器学习中。

  • “变量”,一般用在统计学中。

一个属性类型的确定取决于该属性可取值集合的选择,可以选择分类型、二分型、等级型或定量型.

  • 标称属性:

特点:

标称属性的值是一些符号或事物的名称。

每个值都代表某种类别、编码或状态的变化情况,并且标称属性通常被视为分类变量(categorical)。

分类变量的具体数值之间并不存在明确顺序关系,并且这些数值不具备度量化特征。(具体而言,在给定一组对象时,则无法计算此类变量的平均值)

  • 二元属性:

特点:

二元属性被称为一种nominal attribute,并且仅包含两种可能的状态:0或1;其中0通常用来表示该属性不存在的情况(即被激活),而1则用于表示该属性存在的情况(即被激活)。

二元属性又称布尔属性,如果两种状态对应的是 true 和 false。

  • 序数属性:

特点

属性项之间的可能取值具有有意义的有序排列或等级评定(ranking),然而它们之间的差异不可知。(即这些取值具有明确的时间顺序)

其它

例:drink_size,表示饮料杯的大小:小、中、大,这些值具有有意义的先后次序。

序数属性可以通过将数值范围分类成有限个有序区间(例如:0代表非常不满意、1代表不满意、2代表中性态度、3代表满意、4代表非常满意),对数值属性进行离散处理而实现。

可以用众数和中位数表示序数属性的中性趋势,但不能定义均值。

分类变量、二元属性和序数属性都属于定性类型,在此基础之上它们描述了对象的特征而不是提供具体的数值信息。

  • 数值属性:

特点

是定量的可度量的量,用整数或实数表示。

可以是区间标度的或比率标度的。

区间标度属性

用相等的单位尺度度量。

区间属性的值。

比例标度属性

具有固定零点的数值属性。

  • 离散属性和连续属性:

机器学习中的分类算法通常需要把属性分为离散的和连续的。

离散属性

具有有限个或无限个可数个数,可以用(或不用)整数表示。

连续属性

如果属性不是离散的,则它是连续的。

  • 数据集类型:

数据集由许多数据对象组成。这些数据对象有时也被称为条目或元组。在不同的上下文中,它们还可以被称作矢量,模型,事件项,实例,样本项或观察项等术语。

训练集:用来训练模型。

测试集:用来评估模型和预测数据。

数据集的一般特性:维度,稀疏性,分辨率。

维度:

维度:一组数据的组织形式(一维、二维或多维)。

一维数据由对等关系的有序或无序数据构成,采用线性方式组织。

二维数据由多组一维数据构成,并通过一维数据的组合形成的方式实现。例如表格就是一个典型的二维数据实例。

多维数据由一维或二维数据在新维度上扩展形式,比如说加上时间维度。

高维数据利用最简单的二元关系展示数据间的复杂结构,比如说键值对。

稀疏性:

在矩阵中,当数值为零的元素远远超过非零元素的数量,并且这些非零元呈现无序分布特征时,则称该类型矩阵为稀疏型;而当非零元数量占比绝对多数时,则称此类型矩阵为密集型。

稀疏矩阵常被应用于工程领域中,在通信编码与机器学习方面尤为常见。当编码型态或特征表达型态为稀疏型态时,则能带来显著的计算效率提升。在机器学习领域中,其应用范围极为广泛:如在数据特征提取、自然语言处理等领域的应用。

分辨率:

数字表示的图像是能够在计算机中显示和处理的具体表现形式。在自然界中所有的图像是连续信号(模拟量),通过离散化处理后便获得了用数字表示的形式。这一过程主要包括两个关键步骤:采样与量化。其中,采样过程指的是将空间上连续的图像转换为离散化的采样点集合(即像素点集)。而将各像素灰度值从模拟量转化为离散量的过程则被称为图像灰度量化。具体而言,在这一过程中我们实现了空间坐标的精确对应关系建立与各像素灰度值的有效编码

当空间分辨率提高时(即数值越大),通常会带来更高的图像清晰度;而当空间分辨率降低时(即数值越小),可能会导致图像细节丢失甚至出现棋盘状 artifact;同样地,在灰度或色彩通道中的高分辨表示有助于保持整体清晰度与细节丰富性;相反,在这些通道中使用较低的分辨表示可能导致图像模糊或细节丢失

  • 数据汇总统计:

汇总统计通过将大量数据转化为可量化的形式来实现对可能具有显著规模的数据集合的关键特征的总结与分析。

中心趋势度量:均值、中位数和众数。

度量数据散布:极差、四分位数、方差、标准差和四分位数极差

  • 中心趋势度量:

均值、中位数和众数

均值:在一组数据中所有数据之和再除以这组数据的个数。

称作加权平均值。当对被测定量进行多次测定时,在考虑每组测定结果的"权重"后通过计算得出其算术平均值时,则该平均值等于所有加权数值之和除以总权重。

截尾均值:丢弃高低极端值后的均值。

中位数:有序数据值的中间值。

众数:众数是样本观测值在频数分布表中频数最多的那一组的组中值。

中列数:最大和最小值的平均值。

正倾斜:众数出现在小于中位数的值上。

负倾斜:众数出现在大于中位数的值上。

  • 度量数据散布:

极差、四分位数、方差、标准差和四分位数极差

极差:最大值与最小值之差。

分位数:把数据划分成基本大小相等的连贯集合。

四分位数也被称作四分位点,在统计学中指的是将所有数据从小到大排列后划分为四个相等的部分所处的三个分割点上的数值

分位数值:当一组数据从小到大排序时,并累积计算其对应的累积比例,则在某一个累积比例点上对应的数值即被称为该累积比例点对应的分位数值。

第一个四分位数:Q1,第25个百分位数。

第三个四分位数:Q3,第75个百分位数。

四分位数极差IQR:Q3-Q1。

    • 数据挖掘的开发工具?

Python

    • 数据挖掘的学习路径?

全部评论 (0)

还没有任何评论哟~