《ETL数据整合与处理》七个实例
实例一 Excel输入
使用Ctrl+N快捷键,创建【Excel输入】转换工程,单击【核心对象】选项卡,展开【输入】对象,选中【Excel输入】组件,并拖曳拖曳到右边工作区中,如图所示。

设置参数浏览导入Excel文件。单击【浏览(B)…】按钮,在计算机上浏览并导入“物理成绩.xls”文件,如图所示。

添加并编辑Excel文件。单击【增加】按钮,将浏览导入至【文件或目录】输入框中的“E:\data\物理成绩.xls”文件,添加至【选中的文件】表中,如图所示。

查看被选中的文件名称。单击【显示文件名称…】按钮,弹出【文件读取】对话框,查看被选中读取的文件,如图所示。

另外,如果需要导入同一个目录下的多份名称类似的文件,如导入同一个目录下名称分别为“物理成绩.xls”“物理成绩1.xls”和“物理成绩2.xls”的文件,可以使用通配符的方式导入。 具体操作是,在【选中的文件】参数表中,在【文件或目录】输入框中键入“E:\data”,在【通配符号】输入框中键入“物理成绩*..xls”,可以一次性读入这3个文件。
单击【工作表】选项卡,如图所示。

获取选中文件的工作表。单击【获取工作表名称…】按钮,弹出【输入列表】对话框,左边【可用项目】列表列出选中文件的所有工作表,如“物理成绩.xls”文件的“Sheet1”工作表,而右边【你的选择】列表列出被选中的工作表,如图所示。

设置选中的工作表参数。单击【确定】按钮,将【你的选择】列表选中的“Sheet1”工作表添加至【要读取的工作表列表】表中进行参数设置,【起始行】和【起始列】参数都设置为“0”,此时完成【工作表】选项卡参数的设置,如图所示。
单击【字段】选项卡,如图所示。

获取字段。单击【获取头部数据的字段…】按钮,添加字段到【字段】表中设置字段参数,如图所示。

设置字段参数。对字段参数进行设置,如图所示,此时完成【字段】选项卡参数的设置。
单击【内容】选项卡,如图所示。

单击【错误处理】选项卡,如图所示,可对获取Excel文件时产生的错误处理参数进行设置,检查和定位错误位置,一般按照缺省值配置。

单击【其他输出字段】选项卡,如图所示。
设置好字段参数后,单击【预览记录】按钮,弹出【预览数据数量】对话框,要预览的行数采用默认值,并单击【确定】按钮。

实例二 生成记录
使用Ctrl+N快捷键,创建【生成记录】转换工程,单击【核心对象】选项卡,展开【输入】对象,选中【生成记录】组件,并拖曳到右边工作区中,如图所示。

双击【生成记录】组件,弹出创建【生成记录】对话框。设置字段参数。在【字段】表中,对各字段的参数进行设置,如与所示,此时完成【生成记录】组件参数的设置。

实例三 生成随机数
使用Ctrl+N快捷键,创建【生成随机数】转换工程,单击【核心对象】选项卡,展开【输入】对象,选中【生成随机数】组件,并拖曳到右边工作区中,如图所示。

双击生成随机数】组件,弹出【生成随机值】对话框,单击【名称】参数输入框,键盘键入“授权码” ,而后单击【类型】参数输入框,弹出【选择数据类型】对话框,选择【Random Message Authentication Code(HmacMD5)】类型,如图所示。

在【生成随机数】转换工程中,单击【生成随机数】组件,再单击工作区上方的
图标。弹出【转换调试窗口】对话框,展示生成随机数的数据,如图所示。

单击【快速启动】按钮,弹出【预览数据】对话框,展示生成随机数的授权码数据,如图所示。

实例四 获取系统信息
使用Ctrl+N快捷键,创建【获取系统信息】转换工程,单击【核心对象】选项卡,展开【输入】对象,选中【获取系统信息】组件,并拖曳到右边工作区中,如图所示。

双击【获取系统信息】组件,弹出【获取系统信息】对话框,设置第1行参数。【名称】参数设置为“当月最后一天”。单击【类型】输入框,弹出【选择信息类型】对话框。选择“本月最后一天的 23:59:59”类型,如图所示,并单击【确定】按钮。

设置第2行参数。与设置第1行参数类似,第2行参数的【名称】参数设置为“计算机名称”,【类型】参数设置为“主机名”。

设置第3行参数。与设置第1行参数类似,第3行参数的【名称】参数设置为“IP地址”,【类型】参数设置为“IP地址”,如图所示,此时已完成【获取系统信息】组件的参数设置。

单击浏览记录】按钮,弹出【Enter preview size】对话框,预览记录数采用默认值,单击【确定】按钮。弹出【预览数据】对话框,展示获取系统信息的数据,如图所示。

实例五 排序记录
使用Ctrl+N快捷键,创建【排序记录】转换工程。接着创建【Excel输入】组件,设置参数,导入“2019年11月月考数学成绩.xls”文件,预览数据,如图所示,其中“数学”字段数据处于无序状态。

在【排序记录】转换工程中,单击【核心对象】选项卡,展开【转换】对象,选中【排序记录】组件,并拖曳至右边工作区中。由【Excel输入】组件指向【排序记录】组件,建立节点连接,如图所示。

双击【排序记录】组件,弹出【排序记录】对话框,如图所示。

设置排序字段参数。在【字段】表中,对各字段的参数进行设置,此时完成【排序目录】组件参数的设置,如图所示。

在【排序记录】排序工程中,单击【排序记录】组件,再单击工作区上方的
图标。预览数据,展示排序后的数据,如图所示。

实例六 去除重复记录
使用Ctrl+N快捷键,创建【去除重复记录】转换工程。接着创建【Excel输入】组件,设置参数,导入“期考成绩.xls”文件。 接着创建【排序记录】组件,并由【Excel输入】组件指向【排序记录】组件,建立节点连接,如图所示。

双击【排序记录】组件,对“学号”字段按照升序进行排序后预览数据,如图所示,除了“序号”字段数据外,“学号”分别为“201709023”“201709028”“201709030”的数据各有两条记录,并且对应的“语文”“数学”等考试科目和“创建时间”的数据也相同。

在【去除重复记录】转换工程中,单击【核心对象】选项卡,展开【转换】对象,选中【去除重复记录】组件,并拖曳至右边工作区中,并由【排序记录】组件指向【去除重复记录】组件,建立节点连接,如图所示。

双击【去除重复记录】组件,弹出【去除重复记录】对话框,如图所示。

设置用来比较的字段参数。在【用来比较的字段】表中,【字段名称】设置为“学号”,【忽略大小写】设置为“N”,此时完成【去除重复记录】组件参数的设置,如图所示。

在【去除重复记录】转换工程中,单击【去除重复记录】组件,再单击工作区上方的 图标即可预览去除重复记录后的数据,如图所示。

实例七 替换NULL值
使用Ctrl+N快捷键,创建【替换NULL值】转换工程。接着创建【Excel输入】组件,设置参数,导入“2019年11月月考英语成绩.xls”文件,预览数据,“学号”字段数据为“201709007”所对应的“英语”字段数据为“

在【替换NULL值】转换工程中,单击【核心对象】选项卡,展开【应用】对象,选中【替换NULL值】组件,并拖曳至右边工作区中。由【Excel输入】组件指向【替换NULL值】组件,建立节点连接,如图 所示。

双击【替换NULL值】组件,弹出【替换NULL值】对话框,如图所示。
确定组件名称。【步骤名称】参数保留默认值“替换NULL值”。
选择【选择字段】方式设置字段参数。【选择字段】设置为“√”,并在【字段】表中,对字段的参数进行设置。此时完成【替换NULL值】组件参数的设置,如图所示。

在【替换NULL值】转换工程中,单击【替换NULL值】组件,再单击工作区上方的
图标,预览替换NULL值后的数据,如图所示。

