Kettle数据集成实验指导书new

资源描述

《Kettle数据集成实验指导书new》由会员分享，可在线阅读，更多相关《Kettle数据集成实验指导书new（6页珍藏版）》请在金锄头文库上搜索。

1、Kettle数据集成本示例演示如何使用Kettle实现数据ETL过程，示例的源数据是一个记录销售信息的CSV文件，数据经过处理，生成一个客户邮件地址列表，然后，导入到一个数据库中。为了演示数据处理过程，数据记录中一些客户信息缺少邮编。在导入数据库之前，补充缺失信息。整个过程逻辑图如图 11：读取销售数据缺少邮编导入数据库查找邮编否是图 01流程示意图1.1 从CSV文档中抽取数据（Extraction）这个步骤是从一个CSV格式的文档中录入销售数据，一般的，Kettle转换都是从数据抽取开始的。详细配置如下：（1）单击菜单栏“文件-新建-转换”创建新的转换。另外，双击“主对象树”分页的“转换”

2、，同样可以创建一个新的转换，或者使用快捷键“Ctrl+N”。（2）选择“核心对象”分页，展开“输入”节点，选择并拖曳“文本文件输入”到右面的设计面板上面。（3）双击“文本文件输入”步骤，出现“文本文件输入”步骤的编辑属性对话框，如图 12。通过设置对话框显示的选项，到对数据的输入进行控制。图 02 属性对话框（4）在“步骤名”文本框中，输入“销售数据读取”。将步骤名更改为“销售数据读取”。（5）单击“浏览”按钮定位到数据源文件sales_data.csv，例如：文件在E:Kettlesales_data.csv路径下面。定位到文件夹E:Kettle，选择文件sales_data.csv,单击“

3、打开”按钮。（6）单击“增加”按钮，添加文件路径到选中的文件列表中。单击“显示文件内容”按钮。可以查看文件内容的详细格式，使用了什么分隔符，是否有行首(列标)。例如：文件使用了逗号(，)作为分隔符，使用引号(“)作为文本限定符，以及包含一行标题。（7）单击“文本文件输入”的“内容”分页，“内容”分页用来设置输入数据文件的格式。（8）在“分隔符”文本框中，输入“,”(中英文逗号不同)。在“文本限定符”文本框中，输入“”，因为文件“sales_data.csv”中有行首，选择“头部”，在“头部行数量”文本框中，输入“1”。如图 13所示。图 03 内容属性页（9）单击“字段”分页，单击“获得字段”

4、，从数据文件中读取字段。此时会弹出一个对话框，要求指定要扫描数据的行数，可以设置任意值，“0”表示扫描整个文件，网格中的每一行都允许定义字段的属性，例如，格式，长度和精度，是否允许有重复行出现。单击“确定”按钮，将显示定义格式下输入数据的汇总信息。通过扫描可以检查输入的数据是否正确，从而减少转换运行时错误。单击“取消”，不扫描数据文件。扫描完成后，单击“关闭”按钮，回到属性设置对话框。（10）在“字段”分页下，找到“SALES”字段，“SALES”的字段类型显示为“String”，kettle通过它来确定字段的数据类型，单击“String”，在下拉框中选择“Number”，可以更正数据类型为数

5、字类型。单击“格式”列对应的单元格，输入“#.#”或“0.00”，定义要显示个数据格式。如图 14 所示。图 04 字段属性页（11）单击“预览记录”，查看指定行数的记录。以验证输入的数据格式是否正确。1.2 过滤邮编缺失的记录（Transformation）资源文件中有许多缺少邮编的记录，使用过滤记录步骤过滤出这些记录，以便在下一个步骤中解决。（1）添加“过滤记录”，到设计面板。（2）创建一个连接在“销售数据输入”（文本文件输入）步骤和“过滤记录”步骤之间。连接表示数据在转换中的流向，创建连接，单击“销售数据输入”步骤，然后，长按Shift键，在“销售数据输入”图标上按着鼠标左键拖曳到过滤记

6、录步骤。这样两个步骤之间显示一个箭头，表示数据的流向。如图 15 所示。图 05步骤设置另外，把鼠标悬停在“销售数据输入”步骤上，过一会儿，会出现悬停窗口，拖曳步骤的向右指针按钮到“过滤记录”，同样可以创建一个连接。如图 16 所示。图 06 添加连接（3）双击“过滤记录”步骤，在属性设置对话框中编辑“过滤记录”的属性。（4）在“步骤名”文本框中输入“过滤缺失邮编”（5）在“条件”下面，点击。可用于设置转换条件的字段向显示在弹出对话框中。（6）在字段对话框中选择“POSTALCODE”,单击“确定”（7）单击比较操作符（默认设置为“=”），选择IS NOT NULL,单击“确定”。单击“确定”

7、按钮退出过滤字段属性对话框。1.3 加载数据到目标数据库（Loading）将“POSTALCODE”不为空的记录加载到数据库中的表。（1）在“核心对象”分页中，展开“输出”文件夹，（2）单击并拖曳“表输出”步骤到设计面板，在“过滤缺失邮编”（过滤字段）和表输出步骤创建连接，选择“Result is TRUE”，如图 17 所示。图 07 有选择的连接（3）双击“表输入”步骤，打开属性对话框。（4）重命名步骤名为“写入数据库”（5）单击“数据库连接”文本框后面的“新建”按钮，弹出一个数据库连接对话框，配置属性，创建一个数据库连接。（6）配置数据库连接参数参数名操作备注Connection Nam

8、e输入“ExampleDB”连接名Connection Type选择 Oracle连接类型Host Name127.0.0.1主机名Database NameXE数据库名Tablespace for DataUsers表空间名Tablespace for Indices索引的表空间名Port Number1521端口号User Name数据库用户名用户名Password登录密码密码（7）单击“测试”，检验数据库配置是否正确。单击“确定”退出窗口（8）单击“确定”，退出数据库连接对话框（9）在“表输入”属性对话框中，选择“裁剪表”属性。（10）在“目标表”文本框中，输入“SALES_DATA”，

9、数据表在目标数据库中并不存在，Kettle提供根据输入字段生成DDL语句来创建表。但用户必须对数据库有足够的权限。（11）单击“SQL”生成创建目标表的DDL语句。（12）单击“执行”运行SQL语句。当一个SQL语句执行完成后，会有一个显示结果的对话框弹出，单击“确定”，关闭对话框。单击“关闭”关闭SQL编辑对话框，单击“确定”，关闭表输入编辑对话框。最终的完整步骤如图 18：图 08 完整的转换1.4 运行和调试执行方式描述本地执行允许在Spoon设计环境中（本地）执行转换和作业，这样可以在设计的时候直接测试转换或者作业。远程执行对于大多数ETL转换，可以选择在服务器上执行，这样一次发布，可

10、以重复执行，另外也可以执行定时任务。集群执行对于数据量大的转换或者作业，使用集群方式，能够节省运行时间，提高执行效率。转换有三种运行方式，适用于各种ETL项目的需求。（1）在Spoon图形界面设计器上，单击执行按钮（用于执行转换或者作业），一个“执行转换”对话框出现。可以选择本地执行转换、远程执行转换或者集群环境下执行。这里选择“本地执行”。（2）单击“启动”。转换开始执行，在设计面板下面是“执行结果”面板，“Step Metrics”页，显示转换中各个步骤的统计结果，包括读写记录和输入、输出及处理速度等相关信息的显示。如果某个步骤出错，该步骤的信息会高亮显示为红色。如图 19 所示。图 09 结果统计窗口

展开阅读全文