Advertisement

机器学习数据清洗

阅读量:

数据清洗

在数据分析中进行数据清洗的主要目的是不仅去除错误信息和冗余数据,并且能够整合来自多样且不兼容的来源的数据集。软件开发的需求分析过程中强调了对原始数据分析前必须进行严格的数据清洗。

有监督清洗:基于领域专家的专业指导,在特定应用场景下采集并分析相关数据,并结合实际情况剔除明显噪声数据及重复记录,并修复缺失的数据等处理流程。
无监督清洗:遵循既定的业务规则,在特定场景下预先设定好适用于该场景的数据清理算法,并由计算机系统自动应用预设算法对原始数据集进行清理处理,并生成相应的清理报告。

缺失值处理的两种方法

删除法 ,根据数据处理的不同角度,删除法可分为以下4种:

(1)剔除不符合条件的数据样本
(2)对于某个因缺失值众多且对研究目标影响较小的数据而言,在不考虑其完整性的前提下将其整体剔除是可行的做法。
(3)在剩余样本中存在较多缺失且原始数据完整的条件下,在不进行补充的情况下可直接应用原始数据。
(4)通过赋予完整剩余样本不同的权重对其进行重新计算处理的方式能够有效缓解由于删减样本导致的偏差问题。

插补法 是一种基于一定条件,在数据完整性要求下通过替代缺失数据点的方式补充缺失信息的技术手段。其核心目标是尽可能接近真实的数据特征,在实际应用中具有重要的价值。该技术主要采用的方法包括:基于均值的填充法(Mean imputation)、基于回归模型的方法(Regression imputation)以及基于多项式求积的技术(Polynomial regression)等单一变量填充策略。

(1)采用均值得出非缺失观测的平均,并将其用于填补缺失观测点。
(2)在回归模型中,默认需要填补的数据被视为被预测的目标。
(3)热平台填补法旨在通过寻找与当前观测点高度相似的数据点来进行填补。
在实际应用中尤其面临多维度数据时会遇到较难精确匹配的情况。
(4)根据特定分类标准对数据进行分组后,在每个子组内实施均质填补策略。

噪声数据处理

在测量过程中形成的随机误差项和系统偏差共同作用下产生的数据波动称为噪声,并且这些波动通常表现为异常观测值。

噪声检查中常用的指标包括:
(1)通过识别数据集中与其他观测值及均值存在显著差异的点来识别异常数据。
(2)利用聚类分析将相似的数据归为一类,在这种分类下不属于任何类别的数据视为离群点。

完成噪声检测后, 常用分箱. 聚类. 回归分析. 计算机辅助以及人工审核相结合的方法对数据进行处理(称为光滑), 从而去除数据中的异常值或噪音点.

噪声数据的预处理方法及其处理策略
1数据分组:将存储的数据值按一定规则分配到多个组别中,在各组内通过平均值、中位数或边界值等特征进行局部插值平滑处理以减少噪声影响;这种基于区间划分的数据预处理方法是一种简单有效的技术手段。
2多元统计建模:采用适当的回归模型来估计数据变化趋势,在单变量分析的基础上拓展至多变量场景下构建多元统计模型以实现更为精确的数据预测与修匀;这种方法能够有效解决复杂空间分布下的数据拟合问题。
3自动化质量控制流程结合人工审核机制:借助计算机系统对判定对象进行质量对比分析,在检测到异常偏离度超过设定阈值时自动标记异常样本;随后由专业人员对标记结果进行最终确认判断,在确保数据质量的同时实现高效的数据清洗流程;这种混合式审核模式既降低了人为失误风险又提高了整体工作效能水平。
4 分类聚类技术的应用:基于机器学习算法对相似特征样本进行系统性归类整理,在识别出孤立点时能够明确区分两类极端情况下的异常样本来源;通过动态评估机制能够有效识别潜在高质量信息资源的同时也能及时剔除混杂干扰因素所造成的影响;这不仅有助于提升数据分析效率还能显著改善最终结果的质量保障水平

分箱的方法 :有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。

等深分箱法(即采用统一权重)时

等宽分箱法是一种将数据集在属性值的整体区间内均匀分布的技术手段。它通过将整个属性值域划分为多个相等长度的子区域(即箱子),实现对数据的均匀分配。这种策略能够有效减少极端值的影响,并确保每个子区域内的样本数量均衡。其核心参数——箱子宽度——决定了划分的具体粒度和粒数设置。

用户可以根据自行设定的区间范围进行设置,在实际操作中如果需要分析特定区间的数据分布情况时,则可以通过这种方法实现目标

数据平滑方法
计算算术平均:通过计算同一行或列各单元格内各数值的算术平均,并将其作为替换该单元格内所有原始数值的新数值。
采用邻近最小边界:利用相邻单元格较小的数据作为替代对该单元格内的原始数值进行调整。
采用中间位置数值:选取该行或列中间位置所在的单元格数值作为对该行或列内原始数值进行替换的标准依据。

数据集成 :将多个数据源中的数据合并,并存放到一个一致的数据存储(如数据仓库)中。这些数据源可能包括多个数据库、数据立方体或一般文件。
数据变换 :找到数据的特征表示,用维度变换来减少有效变量的数目或找到数据的不变式,包括规格化、规约、切换和投影等操作。
数据规约 :是在对发现任务和数据本身内容理解的基础上,寻找依赖于发现目标的表达数据的有用特征,以缩减数据模型,从而在尽可能保持数据原貌的前提下最大限度的精简数据量,主要有两个途径:属性选择和数据抽样,分别针对数据库中的属性和记录。

全部评论 (0)

还没有任何评论哟~