Advertisement

一般数据挖掘流程

阅读量:

1.业务需求

2.挖掘流程

3.基础数据分析

4.数据处理

5.模型搭建

6.模型评估

7.模型部署

1.业务需求

基于上述条件将需求转化为数据挖掘问题并制定相应的初步计划,在此过程中需结合实际情况完成目标的初步方案制定与执行步骤。根据商业运营相关要求对原始数据进行字段划分及统一标准处理,并在此基础上展开数据分析工作。初期阶段应着重梳理并掌握各项核心业务指标以及关键绩效指标的相关信息以确保后续分析工作的顺利开展

2.挖掘流程

3.基础数据分析

基础分析手段包括以下几大类:首先涉及的数据分布特征分析、其次的数据对比关系研究、接着是数据分析区域划分、随后是变量间关联程度考察、之后是变量识别技术应用以及最后的结构化信息解析等多维度内容。

统计基本信息:最大最小值、中位数、分位数、均值等;

基本统计检验:T检验、F检验、卡方检验、Z检验、非参检验。

单个特征可视化: 统计单个特征及其目标特征求取情况的频率,并通过图表进行展示(离散变量采用条形图进行分析;连续变量则采用概率密度曲线进行展示);

观察各个特征对目标变量的作用方式: 能够清晰地了解数据特征与预期的一致性。

对于缺少先验知识的变量而言,在分析其重要性的同时也能提供深入的理解路径;在面对二分类目标时,默认将一类定义为阳性类别,并以此为基础进行比例分析;当特征呈现类别型或整数型属性时,则采用条形图与置信区间区域相结合的方式直观展示各类别对应的阳性样本占比。

若某个特征属于连续型变量时,则在同一个图表上呈现两个分布曲线一条代表正类样本的比例另一条代表反类样本的比例。

当数据存在缺失值时,在分析过程中将具有缺失值的特征归类于同一类别; 通过考察不同特征之间的相关关系,并结合可视化技术构建相关性矩阵。

4.数据处理

4.1.异常值处理

4.1.1.异常值判断

3σ准则与四分位数截断(箱形图识别):仅适用于单一特征分析;基于距离度量的异常检测方法则专注于多维数据集;举例而言,在实际应用中我们通常会对样本数据进行聚类处理,并识别其空间分布中的异常点;随后结合具体业务背景进行评估以确定是否属于真正的异常值。

Chauvenet准则:计算均值和标准差以对比系数获取对应的z-score;在边界检验中去除异常数据;反复进行上述步骤。

Grubbs准则:逐一识别并剔除达到剔除标准的数据点;对于达到异常值检测阈值但未达剔除标准的数据点,则应尽力修复其数值来源;若无法修复,则需比较删除与保留两种情况下的统计结果,并依据实际情况做出取舍。

基于模型算法推断的检测方法,如基于矩阵分解和重构的方法;

基于神经网络的自编码器模型能够识别单变量时间序列中的异常点; 传统的单变量分析方法能够延伸至多维特征空间以实现复杂数据模式的识别; 在实际应用中常用的方法包括基于概率密度估计法和卡方检验方法,并通过比较其相应的概率密度函数值与临界阈值的关系来判定数据点是否为孤立点。

4.1.2.处理方法 :异常值样本的丢弃与否还是要看情况;

将异常值替换成被认为合理的区间端点值;对连续变量采用基于分位数或人工设定阈值的方式进行离散化处理,从而将数值型数据转换为类别型数据,并有效去除异常值带来的干扰;采用鲁棒标准化方法(即区间缩放)等。

4.2.缺失值处理

被处理后的样本适用于当缺失数据呈现随机性时,并且在去除缺失值后仍能保留足够的数据量来进行模型训练的情况。

特征筛选:当某个变量的缺失率超出设定阈值时通常会将其舍弃;然而,在以下情况下除外:当该变量被认为对模型性能至关重要时;举例而言:职业和学历这类属性。

通常情况下,在数据波动较小且不影响目标变量变化的情况下使用均值、中位数或众数进行填补效果较好。

插值法填补:akima、多项式插值、牛顿插值等;

通过构建预测模型进行填补,在具备行为特征信息和用户属性信息的情况下,采用多种回归方法对缺失数据进行处理,并建立收入预测模型。

lightGBM和Xgboost能够自然处理缺失值并将这些缺失值视为数据的一部分参与训练

4.3 特征工程

4.3.1处理定性特征

定量变量可转换为定性变量具体来说就是将数值划分为多个区间段

特征的编码方式是将每个类别分配给一个自然数,并依次排列为0、1、2……;在人口统计学研究中,儿童阶段(如学龄前儿童)、青春期(adolescence)、成年阶段及老年阶段的分类变量通常也被采用,并按顺序设置为0、1、2……。

哑变量编码,即一个类别对应一个二值变量;

对定量特征二值化,基于给定阈值,将定量特征按阈值划分;

平均数编码,适合用来处理变量的类别很多(n很大)的情况;

WOE编码等

4.3.2.处理定量特征

标准化、区间缩放、归一化等

4.3.3.特征选择

当数据预处理完成之后,在此基础上我们需要挑选关键属性作为输入以训练机器学习算法与模型

该特征是否具有发散性?如果一个特征不具备发散性,则表示其在各个样本上的取值相差不大;换句话说,在这种情况下样本在这个特征上的差异极其微小;因此该特征无法起到区分不同样本的作用

特征与目标之间的关联度:这一点很容易看出来,在关联度较高的特征中,则应该优先选择

包括多种基于统计特性的特征选择方法:基于方差的选择方法、基于相关性系数的方法、基于卡方统计量的检验方法、基于互信息理论的方法以及嵌入式特征选择方法等。这些方法通过不同的标准和机制对数据进行分析和评估以实现最优特征子集的选择

4.3.4 降维

线性方法:pca、lda等

非线性降维方法:lle、mds等

4.4 样本处理

一般有上采样和下采样,样本数量比例控制在一定比例。

随机过采样:从少数类的样本中进行随机采样来增加新的样本;

通过识别少数类样本特征并人工生成补充样本以丰富数据集内容;针对正负例群体分别实施聚类处理后,在此基础上采用过采样策略;对于多数类别中的典型实例采取随机抽取部分样本的方式,并将其与原有少数类别代表共同构建新的训练数据集。

EasyEnsemble:通过有放回地抽样(即重复抽样的方法)生成若干独立的训练样本集合;随后分别基于这些独立的样本集合训练出一系列分立的分类模型;最后将各个分类模型的预测结果集成起来以获得最终决策

基于k nearest neighbor (kNN)算法下的下采样策略:该方法首先计算每个样本与其邻居之间的距离,并根据预设的筛选标准选择具有代表性的多数类样本;

BalanceCascade算法首先通过一次下采样生成训练集,并训练第一个分类器模型;对于被第一个分类器正确识别归为多数类的样本进行不放回筛选后生成新的训练集并重新训练第二个分类器模型;以此类推不断递减多数类样本规模生成更小规模的子集并逐步训练相应的分类器模型;最后将各阶段的分类器结果集成汇总即可获得最终预测结果

在进行K折交叉验证时, 初始采样会被分割成均匀分布的K个子样本, 其中一个单独的子样本会被保留用于后续的评估与测试, 而其余的 K−1 个子 样本则用于模型的训练. 通过不断重复这一过程共 K 次, 每次循环都会选择不同的 子 样本来进行评估. 最终, 我们会汇总这 K 次的结果并采用其他整合方法来获得一个综合性的估计值.

LOOCV:该方法通过以下方式实现——即仅采用单一样本作为验证数据集,并将剩余样本留作训练数据集。具体而言,在每一轮循环中都会选择一个样本单独作为验证集,并将其他样本用于训练模型。当所有样本均被依次选为验证对象时,则完成整个LOOCV过程。

The Hold-out method involves randomly selecting a subset of the initial samples to form the validation dataset, with the remaining data used for training.

5.模型搭建

模型的作用是从数据中发现知识.需便于用户使用及理解。

5.1模型搭建

按照学习方式:监督学习、非监督学习、半监督学习、集成学习

面对不同需求场景:分类、聚类、回归、协同过滤、关联分析等

5.2设计模式

6.模型评估

KS=max(TPR-FPR),TPR=TP/ (TP+ FN),FPR= FP / (FP + TN)

ROC曲线:基于样本的真实类别和预测概率来画,即横轴为FPR,纵轴为TPR。

AUC:ROC曲线下面的面积的值

在启动最终模型部署之前实施关键步骤是必要的,在这一过程中必须进行全面检查以确保其能够实现业务目标。该阶段的核心任务在于识别是否遗漏了关键的业务问题。

7.模型部署

基于多轮实时数据和历史数据的综合分析与建模, 建立模型并非终点, 而是开始, 它是一个复杂且可反复进行的数据挖掘流程, 需根据实际应用情况不断优化与调校

全部评论 (0)

还没有任何评论哟~