《数据清洗》数据的清洗与检验
实例一 对文件merge.csv进行完全去重
一、数据准备

二、打开kettle工具,新建转换

三、配置“CSV文件输入”控件
在用于导入CSV文件的界面中点击"选择文件"按钮,并将指定需要完成去重处理的CSV文件merge.csv设置为此处操作的基础数据。

再次点击"获取字段"按钮后会触发以下操作:Kettle会自动识别并分析CSV文件中的字段类型、格式以及基本属性信息(如长度和精度)。随后,在打开预览窗口后会显示merge.csv文件的所有数据内容。


从图表中可以看到已经成功地将输入数据提取到了数据流中。单击关闭按钮后选择确认以完成配置流程。
4、配置“唯一行(哈希值)”控件
打开哈希值设置界面后,在比较相关设置中输入需要去重的字段信息。在此界面中选择'获取'选项卡,并配置所需去重相关的参数。

点击“确定”按钮完成配置
五、运行转换repeat_transform
点击顶部的运行按钮,运行此转换,实现去重

在执行结果窗口的'步骤度量'选项卡上可见,在'CSV文件输入'控件中输入了10条数据,并将其中的9条写入该控件。其中有1项是表头。此外,在'唯一行(哈希值)'控件中从'CSV文件输入'空间读取了9项数据,并将其中7项写入该控件。另外有2项被拒绝(涉及重复内容)。
点击"唯一行(哈希值)"控件后,在Preview data选项卡上检查是否删除了merge.csv中的完全重复数据

从图表中可以看出完全没有了全部重复的值,这表明去除了全部重复的数据,并从而实现了消除全部重复数据的功能
实例二 对文件people_survey.txt中的缺失值进行填充
一、数据准备

二、打开kettle工具,创建转换

三、配置“文本文件输入”控件
打开 “文本编辑界面” 窗口,在其左侧找到并点击 “浏览选项” 按钮。
在弹出的对话框中选择待填充缺失值的数据文件people_survey.txt。
操作完成后,在屏幕上显示预期的结果。

点击增强按钮以导入待处理的文件people_survey.txt至文本编辑区域。转至内容设置页面后移除分隔符处默认设置为使用字符;接着在分隔符位置插入一个制表符并取消数据预览开关(如果未取消则会在后续操作中跳过第一行记录)。

点击"字段"选项卡, 转至"字段"选项卡界面, 在文件内容的基础上新增并设置相应的字段名称, 并为该字段指定数据类型.

单击“预览记录”按钮,查看文件是否成功抽取到文本文件输入流中

成功后点击"关闭"按钮并转至"确定"按钮。接着完成"文本文件输入"控件的配置。计算工作类属性为Private的所有hours_per_week数值并求其平均,并将计算出的平均数用于填补userid中数值为000016时hours_per_week中的缺失数值。
四、配置“过滤记录”控件
请在“过滤记录”界面中进行如下操作:首先,在“条件”区域设定过滤参数。观察到用户id为000016的用户每周工作时间hours_per_week数据存在缺失现象,并且其工作类型fieldworkclass的值为Public领域中的Private类别。基于以上信息,请将筛选依据设于workclaass字段,并将筛选标准定为Private类别作为判断标准进行操作。

在"发送true数据给步骤:"选项框中设置为"占位符操作(不执行任何操作)",在该条件下将具有private字段值的记录分配至该占位符操作框中;在"发送false数据给步骤:"选项框中设置为"占位符操作(不执行任何操作)2",在该条件下将不属于private类别的记录分配至该占位符操作2框中。

点击“确定”完成配置
五、配置“替换NULL值”控件
进入“替换NULL值”界面,在“选择范围”选项卡下勾选“选择字段”复选框,并在“输入范围”选项卡的“字段”框中输入所需字段名称hours_per_week,在工作表中选择包含该字段的数据区域;随后点击“确定”,在弹出的设置对话框中设置好相关参数后点击“完成”。

点击“确定”按钮完成配置
六、配置“合并记录”控件
打开合并记录设置界面,在编辑页面的'合并行对比'选项卡中进行参数配置:首先将旧数据源设置为替换NULL值选项;随后将新数据源设置为空操作选项;最后在'匹配关键字'字段处新增一个用户ID字段

点击“确定”按钮完成配置
七、配置“替换NULL值2”控件
进入'替换null值'界面后,请勾选''选择字段''复选框,并在''字段''输入栏指定工作类别:workclass一栏;随后,在数值输入区域设置该字段的null值为private(此处采用private替代工作类别中的null值)

点击“确定”按钮完成配置
八、配置“字段选择”控件
在该界面中选择/改名相关设置部分,在‘移除’选项卡界面添加要删除的字段名称。具体来说,在此操作中需要删除的字段为flagfield。

单击“确定”按钮,完成“字段选择”控件的配置
九、运行转换
点击顶部的运行按钮,运行创建的转换,实现填充文件中的缺失值

点击"字段名选择"控件,并依次点击执行结果窗口的"数据视图选项卡"上的"Priview data"选项卡以检查数据中是否存在缺失值。

可以看到不存在缺失值数据了,说明已经实现了缺失值的填充
