Advertisement

Pandas进行数据清洗的方法介绍

阅读量:

介绍Pandas进行数据清洗的方法,在整个数据分析流程中占据核心地位,并被视为一项耗时费力且复杂的任务。该方法通常包括处理缺失记录、执行去重操作以及完成异常检测等常见操作,并致力于实现标准格式统一。

在这里插入图片描述

前期采集的数据不可避免地会存在一定的缺陷与不足,在数据分析之前有必要对原始数据进行必要的预处理工作以确保后续分析的有效性。具体而言主要涉及以下几个方面:首先是数据清洗工作以剔除无效或不完整信息;其次是数据整合过程以协调不同来源的数据格式;然后是重新排列或重构原始数据分析所需的结构形式。通过Pandas库可以实现一系列高效的数据预处理功能包括异常值识别填补缺失值以及标准化处理等操作以提升数据分析的整体质量

数据清洗是一项复杂而费时的任务,在数据分析流程中扮演着关键角色。其主要目的是优化数据质量,并通过清除不符合实际意义、格式错误或超出规定范围的 dirty data(指那些对数据分析无实际价值、格式非法或超出预设范围的数据),使之干净整洁。经过清洗后的数据具备完整性、唯一性和权威性等核心特征。

空值通常代表数据缺失、不可用或未来将补充的信息;而缺失值则即为数据集中某个性质或属性出现不完整的情况其主要原因通常分为人为失误与机械故障两类;其中一类原因是由于机械设备发生故障导致无法收集或存储相关数据另一类则是由于操作人员主观疏忽或有意隐藏信息造成的缺省数值

通常情况下,默认的空数值采用None进行表示;而对于缺失数据,则采用NaN这一数值类型进行标记。Pandas库提供了丰富的函数集合,专门用于检测或处理数据中的空值与缺失值问题。其中的方法包括isnull()与notnull()两个函数:前者用于检测数据中的空值与缺失值的存在情况;对于存在缺失的数据,则可以通过调用dropna()与fillna()方法分别对其进行删除与填充操作。

1、isnull()函数

isnull()函数的语法格式如下:

在这里插入图片描述

上述函数中仅包含一个参数obj用于检测数据空缺。该函数将返回布尔类型的结果:若结果为真,则表示存在空值或缺失数据;否则返回假。(其中NaN或None会被评估为真而其余所有情况则返回假)

随后以一个示例说明如何利用isnull()函数检测数据中的缺失值或空值,在代码实现上可参考以下代码段

在这里插入图片描述

随后生成了一个Series对象...该对象包含1、None以及NaN这三个数值...然后调用isnull()函数对Series对象中的数据进行检查...观察输出结果发现...第一个数据是正常的...而后两个数据为空值或缺失值

2、 notnull()函数

notnull()函数与isnull()函数的作用相同,在识别数据中的空值或缺失值方面具有相似性。其主要区别在于:当notnull()函数检测到数据中存在空值或缺失值时会返回False的结果;而isnull()函数则会给出True的回答。

将上述调用isnull()函数的代码改为调用notnull()函数后,在实际应用中发现该行为具有显著的效果

3、dropna()方法

dropna()方法的作用是删除含有空值或缺失值的行或列,其语法格式如下:

在这里插入图片描述

上述方法中部分参数表示的含义如下:

(1) axis:确定过滤行或列,取值可以为:

0或index:删除包含缺失值的行,默认为0。

1或columns:删除包含缺失值的列。

(2) how:确定过滤的标准,取值可以为:

any:默认值。如果存在NaN值,则删除该行或该列。

all:如果所有值都是NaN值,则删除该行或该列。

thresh:c代表有效数据量的最低阈值。若输入值为2,则要求该行或该列至少包含两个非NaN值时才予以保留。

(4) subset:表示在特定的子集中寻找NaN值。

inplace:表示是否在原数据上操作。如果设置为True,则直接对原始数据进行修改;否则会创建原始数据的一个拷贝并返回该拷贝的内容。

4、填充空值/缺失值

填充缺失值与空值的方式有很多种;例如采用人工填入具体数值、设定特定数值以及使用热卡进行填充等方式;Pandas中的fillna()方法能够实现对空值或缺失值的填补

Python是一种功能强大且应用广泛的编程语言。
市场需求量大
如果你不想外出找工作,在家也可以利用Python从事多种工作类型(例如可以通过网络爬虫技术获取所需数据信息等)进行开发与应用。

学习资源推荐

除了上述经验分享之外,在这个信息爆炸的时代你也可能会对编程充满热情 如果你也渴望通过掌握Python语言来提升自己的职业竞争力 这里特意为您准备了一份详尽的Python学习资料包

这里给大家展示一下我进的最近接单的截图

私单

😊朋友们如果有需求的话,请您点击下方链接进行领取或者V码扫描下方二维码后可进行联系领取。此外您也可加入内部推荐的兼职群参与相关活动哦~

学习资料合集&相关工具&PyCharm永久使用版获取方式

学习资料合集&相关工具&PyCharm永久使用版获取方式

学习资料合集&相关工具&PyCharm永久使用版获取方式

掌握Python编程技能无论是在职业发展还是在副业经营中都能带来可观的收益。然而仅仅学会Python还不够;还需要制定科学的学习计划。最后附上一套完整的Python学习资料包,希望能为那些渴望提升自身技能的朋友们提供便利。

1.Python学习路线

image-20230619144606466
python学习路线图1

2.Python基础学习

01.开发工具
02.学习笔记
在这里插入图片描述
03.学习视频
在这里插入图片描述

3.Python小白必备手册

图片

4.数据分析全套资源

在这里插入图片描述

5.Python面试集锦

01.面试资料
在这里插入图片描述
在这里插入图片描述
02.简历模板
在这里插入图片描述

学习资料合集&相关工具&PyCharm永久使用版获取方式

学习资料合集&相关工具&PyCharm永久使用版获取方式

学习资料合集及相关工具——PyCharm永久激活方法

学习资料合集及相关工具——PyCharm永久激活方法

因篇幅有限, 仅展示部分内容, 可以上方补充获取

全部评论 (0)

还没有任何评论哟~