Advertisement

机器学习项目之数据清洗

阅读量:

前言

数据清洗是机器学习项目中最为琐碎而又繁重的工作之一,下面总结一些经常用到的数据清洗方法与Python实现,以探索能否用更加自动化的手段来简化数据清洗工作。

包括:

1.缺失值处理

2.格式内容清洗

3.重复值处理

4.不一致数据处理

5.错误数据处理

6.离群点处理

7.高杠杆点处理

8.强影响点处理

1 缺失值

缺失值是最常见的数据问题之一,按缺失比例,我们大致可以将数据的缺失分为两种情况:

1)严重缺失

这种情况首先尝试从其他渠道获取缺失的数据;

或尝试从其他数据中间接获取缺失的数据;

如果实在无法获取,只好删除该条数据;

2)少量缺失

当缺失数据不重要且数据量较大,删除该数据没有太大影响时,可以直接删除;

否则应当采取填充的方式处理缺失值,填充方法有以下几种:

a.人工填充:当数据量较小时,可以人工根据业务经验填充缺失值

b.全局变量填充:将缺失的数据值用常量或“unknown”等标记填写,但需要注意的是当用“unknown”时,算法会把“unknown”也当做一种数据特征,除非在业务中数据的缺失代表某种实际意义,否则很少采用这种填充方式

c.使用中心度量填充:如均值或中位数,对于正态分布的数据可以采用均值填充,偏态数据可以用中位数填充,可以采用全量数据的中心度量值,也可以

全部评论 (0)

还没有任何评论哟~