数据挖掘——基本概念
1、定义 :对于数据挖掘我们可以从两个角度来定义它:
技术定义:数据挖掘是指通过对海量数据进行深入分析以识别和提取潜在存在于这些数据中的有价值的信息和知识的过程。
b. 商业定义: 数据挖掘是一种新兴的技术,在商业领域中扮演着重要角色。其核心功能在于对海量的业务信息进行系统地收集和整理,并通过一系列处理步骤后能够提取出有助于公司制定战略和运营决策的关键信息。
2、数据挖掘的主要模型有:分类与预测,聚类和关联分析等;
基于训练数据集构建了一个分类模型;随后将该分类器应用于测试数据集中的一些样本进行识别。
聚类:是一种基于样本特征的数据分析技术,在无标签数据的情况下识别数据内在结构的一种方法。其核心目标是通过评估样本间的相似性将数据集划分为若干簇集,并使同一簇内的样本具有较高的相似度水平(即提高内部一致性),同时使得不同簇之间的样本具有较低的相似度水平(即降低类别间差异)。其中簇的表现形式以及簇间相似度的具体计算方法是基础问题。常见的相似度定义可以使用余弦相似度、欧几里得距离公式等;
关联分析:旨在识别数据中属性-值之间频繁同时出现的关系模式,并揭示这些关系在该数据集中同时出现的情况。关联分析主要应用于购物篮分析或事务数据分析等场景中。
PS:分类属于示例式学习方法,其要求在进行分类之前需明确各个类别,并能确定每个元素的具体归属;而聚合作为无监督学习的一种主要方法,则在聚类过程中无需事先设定各类别的数量或标识符。
3、数据集的一般特点:维度、稀疏性和分辨率;
在数据分析中,维度指的是数据集中描述各个个体特征的数量;通常而言,在机器学习模型中存在一个显著的现象:当处理的数据为低维结构时(如图像或语音信号),其表现往往能够达到与高维结构相当甚至更好的效果)。
稀疏性:指的是一个对象在大部分属性上的取值为零的情况。实际上稀疏性具有显著的优势,在大多数应用中只需要关注那些非零的属性值即可。这种特性使得算法能够在减少计算负担的同时显著减少存储空间的需求。
分辨率:即测量的尺度,在不同的分辨率下得到的数据的性质不同。
4、数据预处理:高质量的数据集是进行有效分析的有效基础。其过程主要包括:1)进行数据清洗流程;2)完成多源数据整合步骤;3)实施特征工程环节。
数据清理:主要是为了试图填充缺失值、去除噪声、并识别离群点;
数据集成:旨在将来自多个数据源的数据整合到一个统一的数据存储环境中。在数据集成的过程中需关注两个核心问题:一是如何保证不同表中同一属性的一致性(即同一属性在不同表中可能采用不同的命名方式),二是如何管理因存在冗余而可能导致的数据浪费(即如果某个对象的属性可以通过另一个表推导出来)。这两个问题共同构成了提高数据完整性的重要考量因素。
数据变换:是指将原始的数据经过某种处理后转换为便于挖掘分析的形式。规范化的处理方法通常会将属性数值进行归一化处理(normalization),使其落在一个较小的统一区间内,默认情况下可能选择0至1之间的范围。另外一种方法是基于已有特征信息提取新特征指标(feature engineering),以更全面地反映数据内在规律性。
