Kettle数据集成实验指导书new

上传人:xins****2008 文档编号:111107802 上传时间:2019-11-01 格式:DOC 页数:6 大小:349KB
返回 下载 相关 举报
Kettle数据集成实验指导书new_第1页
第1页 / 共6页
Kettle数据集成实验指导书new_第2页
第2页 / 共6页
Kettle数据集成实验指导书new_第3页
第3页 / 共6页
Kettle数据集成实验指导书new_第4页
第4页 / 共6页
Kettle数据集成实验指导书new_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《Kettle数据集成实验指导书new》由会员分享,可在线阅读,更多相关《Kettle数据集成实验指导书new(6页珍藏版)》请在金锄头文库上搜索。

1、Kettle数据集成本示例演示如何使用Kettle实现数据ETL过程,示例的源数据是一个记录销售信息的CSV文件,数据经过处理,生成一个客户邮件地址列表,然后,导入到一个数据库中。为了演示数据处理过程,数据记录中一些客户信息缺少邮编。在导入数据库之前,补充缺失信息。整个过程逻辑图如图 11:读取销售数据缺少邮编导入数据库查找邮编否是图 01流程示意图1.1 从CSV文档中抽取数据(Extraction)这个步骤是从一个CSV格式的文档中录入销售数据,一般的,Kettle转换都是从数据抽取开始的。详细配置如下:(1)单击菜单栏“文件-新建-转换”创建新的转换。另外,双击“主对象树”分页的“转换”

2、,同样可以创建一个新的转换,或者使用快捷键“Ctrl+N”。(2)选择“核心对象”分页,展开“输入”节点,选择并拖曳“文本文件输入”到右面的设计面板上面。(3)双击“文本文件输入”步骤,出现“文本文件输入”步骤的编辑属性对话框,如图 12。通过设置对话框显示的选项,到对数据的输入进行控制。图 02 属性对话框(4)在“步骤名”文本框中,输入“销售数据读取”。将步骤名更改为“销售数据读取”。(5)单击“浏览”按钮定位到数据源文件sales_data.csv,例如:文件在E:Kettlesales_data.csv路径下面。定位到文件夹E:Kettle,选择文件sales_data.csv,单击“

3、打开”按钮。(6)单击“增加”按钮,添加文件路径到选中的文件列表中。单击“显示文件内容”按钮。可以查看文件内容的详细格式,使用了什么分隔符,是否有行首(列标)。例如:文件使用了逗号(,)作为分隔符,使用引号(“)作为文本限定符,以及包含一行标题。(7)单击“文本文件输入”的“内容”分页,“内容”分页用来设置输入数据文件的格式。(8)在“分隔符”文本框中,输入“,”(中英文逗号不同)。在“文本限定符”文本框中,输入“”,因为文件“sales_data.csv”中有行首,选择“头部”,在“头部行数量”文本框中,输入“1”。如图 13所示。图 03 内容属性页(9)单击“字段”分页,单击“获得字段”

4、,从数据文件中读取字段。此时会弹出一个对话框,要求指定要扫描数据的行数,可以设置任意值,“0”表示扫描整个文件,网格中的每一行都允许定义字段的属性,例如,格式,长度和精度,是否允许有重复行出现。单击“确定”按钮,将显示定义格式下输入数据的汇总信息。通过扫描可以检查输入的数据是否正确,从而减少转换运行时错误。单击“取消”,不扫描数据文件。扫描完成后,单击“关闭”按钮,回到属性设置对话框。(10)在“字段”分页下,找到“SALES”字段,“SALES”的字段类型显示为“String”,kettle通过它来确定字段的数据类型,单击“String”,在下拉框中选择“Number”,可以更正数据类型为数

5、字类型。单击“格式”列对应的单元格,输入“#.#”或“0.00”,定义要显示个数据格式。如图 14 所示。图 04 字段属性页(11)单击“预览记录”,查看指定行数的记录。以验证输入的数据格式是否正确。1.2 过滤邮编缺失的记录(Transformation)资源文件中有许多缺少邮编的记录,使用过滤记录步骤过滤出这些记录,以便在下一个步骤中解决。(1)添加“过滤记录”,到设计面板。(2)创建一个连接在“销售数据输入”(文本文件输入)步骤和“过滤记录”步骤之间。连接表示数据在转换中的流向,创建连接,单击“销售数据输入”步骤,然后,长按Shift键,在“销售数据输入”图标上按着鼠标左键拖曳到过滤记

6、录步骤。这样两个步骤之间显示一个箭头,表示数据的流向。如图 15 所示。图 05步骤设置另外,把鼠标悬停在“销售数据输入”步骤上,过一会儿,会出现悬停窗口,拖曳步骤的向右指针按钮到“过滤记录”,同样可以创建一个连接。如图 16 所示。图 06 添加连接(3)双击“过滤记录”步骤,在属性设置对话框中编辑“过滤记录”的属性。(4)在“步骤名”文本框中输入“过滤缺失邮编”(5)在“条件”下面,点击。可用于设置转换条件的字段向显示在弹出对话框中。(6)在字段对话框中选择“POSTALCODE”,单击“确定”(7)单击比较操作符(默认设置为“=”),选择IS NOT NULL,单击“确定”。单击“确定”

7、按钮退出过滤字段属性对话框。1.3 加载数据到目标数据库(Loading)将“POSTALCODE”不为空的记录加载到数据库中的表。(1)在“核心对象”分页中,展开“输出”文件夹,(2)单击并拖曳“表输出”步骤到设计面板,在“过滤缺失邮编”(过滤字段)和表输出步骤创建连接,选择“Result is TRUE”,如图 17 所示。图 07 有选择的连接(3)双击“表输入”步骤,打开属性对话框。(4)重命名步骤名为“写入数据库”(5)单击“数据库连接”文本框后面的“新建”按钮,弹出一个数据库连接对话框,配置属性,创建一个数据库连接。(6)配置数据库连接参数参数名操作备注Connection Nam

8、e输入“ExampleDB”连接名Connection Type选择 Oracle连接类型Host Name127.0.0.1主机名Database NameXE数据库名Tablespace for DataUsers表空间名Tablespace for Indices索引的表空间名Port Number1521端口号User Name数据库用户名用户名Password登录密码密码(7)单击“测试”,检验数据库配置是否正确。单击“确定”退出窗口(8)单击“确定”,退出数据库连接对话框(9)在“表输入”属性对话框中,选择“裁剪表”属性。(10)在“目标表”文本框中,输入“SALES_DATA”,

9、数据表在目标数据库中并不存在,Kettle提供根据输入字段生成DDL语句来创建表。但用户必须对数据库有足够的权限。(11)单击“SQL”生成创建目标表的DDL语句。(12)单击“执行”运行SQL语句。当一个SQL语句执行完成后,会有一个显示结果的对话框弹出,单击“确定”,关闭对话框。单击“关闭”关闭SQL编辑对话框,单击“确定”,关闭表输入编辑对话框。最终的完整步骤如图 18:图 08 完整的转换1.4 运行和调试执行方式描述本地执行允许在Spoon设计环境中(本地)执行转换和作业,这样可以在设计的时候直接测试转换或者作业。远程执行对于大多数ETL转换,可以选择在服务器上执行,这样一次发布,可

10、以重复执行,另外也可以执行定时任务。集群执行对于数据量大的转换或者作业,使用集群方式,能够节省运行时间,提高执行效率。 转换有三种运行方式,适用于各种ETL项目的需求。(1)在Spoon图形界面设计器上,单击执行按钮(用于执行转换或者作业),一个“执行转换”对话框出现。可以选择本地执行转换、远程执行转换或者集群环境下执行。这里选择“本地执行”。(2)单击“启动”。转换开始执行,在设计面板下面是“执行结果”面板,“Step Metrics”页,显示转换中各个步骤的统计结果,包括读写记录和输入、输出及处理速度等相关信息的显示。如果某个步骤出错,该步骤的信息会高亮显示为红色。如图 19 所示。图 09 结果统计窗口

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号