Advertisement

pandas数据清洗

阅读量:

pandas数据清洗

    • 1、使用pandas进行数据清洗
      • 1.1、数据问题
      • 1.2、读取数据
      • 1.3、切分列
      • 1.4、删除列
      • 1.5、使用布尔索引筛选
      • 1.6、应用函数
      • 1.7、删除空行
      • 1.8、去重

1、使用pandas进行数据清洗

1.1、数据问题

  1. 没有列头
  2. 一个列有多个参数
  3. 列数据的单位不统一
  4. 缺失值
  5. 重复数据
  6. 非ASCII 字符
  7. 有些列头应该是数据,而不应该是列名参数

1.2、读取数据

使用pandas读取数据时,如果原数据没有列名,需要指定列名,否则pandas将会默认使用第一行数据当做列名
在这里插入图片描述

1.3、切分列

函数用法:split(sep,n,expand=false)

sep表示用于分割的字符;n表格分割成多少列;expand表示是否展开为DataFrame,True输出Series,False输出Dataframe。

像name列含有firstname和lastname 需要将其拆分成两列
在这里插入图片描述

1.4、删除列

在这里插入图片描述

1.5、使用布尔索引筛选

在这里插入图片描述

1.6、应用函数

在这里插入图片描述

1.7、删除空行

在这里插入图片描述

1.8、去重

处理前
在这里插入图片描述
在这里插入图片描述
去重后
在这里插入图片描述

全部评论 (0)

还没有任何评论哟~