《自己总结的Kettle使用方法和成果》由会员分享,可在线阅读,更多相关《自己总结的Kettle使用方法和成果(15页珍藏版)》请在金锄头文库上搜索。
1、KETTLE使用自己总结的Kettle使用方法和成果说明简介Kettle 是一款国外开源的 ETL 工具,纯 java 编写,可以在 Window、Linux、 Unix 上运行,绿色无需安装,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员 MATT 希望把各种数据放到一个 壶里,然后以一种指定的格式流出。Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一 个图形化的用户环境来描述你想做什么,而不是你想怎么做。Kettle中有两种脚本文件,transformation和job,transformation完成针对数 据的基础转换, job 则完成整个工
2、作流的控制。Kettle 可以在 网站下载到。注:ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端 经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。ETL 一词较常用在数据仓库,但其对象并不限于数据仓库。下载和安装首先,需要下载开源免费的 pdi-ce 软件压缩包,当前最新版本为 。下载网址:http:/ 然后,解压下载的软件压缩包:,解压后会在当前目录 下上传一个目录,名为 data-integration。由于Kettle是使用Java开发的,所以系统环境需要安装并且配置好JDK。Kettle 可以在 网站下载
3、国 下载kettle压缩包,因kettle为绿色软件,解压缩到任意本地路径即可。运行Kettle进入到Kettle目录,如果Kettle部署在windows环境下,双击运行spoon.bat 或Kettle.exe文件。Linux用户需要运行spoon.sh文件,进入到Shell提示行窗口, 进入到解压目录中执行下面的命令:# chmod +x spoon.sh# nohup ./spoon.sh & 后台运行脚本这样就可以打开配置Kettle脚本的UI界面。iFhfBFHFX*RPH? ZA ii;-f民yAtaLdu -rag 11fa Mftrk ehm r deJm IWBTeomBT
4、utorials Vic*es 却Get the Most From PentahoLet us help you beogoie an ETL, Big Data Master.Mee! the Fanil/CreditsMany Rsacing to GetEnterprraB Edit onKettle 的简单使用首先,点击“文件新建转换”菜单创建一个转换。劈sp丈禅Fl謂观却机行二目無血I至寸矗恂fj榜3刃金誌槪7、| Ml 口務移隠ts半風旨100%VD B Input b曰揃入 卜目斬口 b耳磔更 b目应用 t 曰 StS |目卿本我们可以看到转换的主对象数和核心对象区域,然后我们
5、添加一个 DB 连接。选择“注对象数”,双击“转换2”标签下的“DB连接”会弹出一个设置窗 口。填入连接名称,选择连接类型,配置数据库设置,然后测试下配置是否正确。由于 Kettle 没有将所有的数据库的 Driver 文件集成,所以如果想连接指定的 数据库,需要自己下载JDBC驱动,放入到解压目录下的lib目录中。添加完JDBC 驱动后,必须重启下Kettle才能加载驱动。1) Oracle 的 JDBC 驱动:ojdbc6.jarI p data-integration lib名称樓改日期美型K小qjdbc6jar014/1/1: n:40Executable Jar File102 KB
6、區Iolap4i-1.2.0.jar2014/10/1 13:45Executable Jar File 324 KB2) MySQL 的 JDBC 驱动: data-integration lib名稼*修改日期类型I| mysqI - conne-ctar-java -5.1.32-bin,ji32044/7/22Exucut臼 bl亡 Jssr Fil=947 KB |注:在转换之前需要创建转换所需的表,原始表和转换的目标表。点击“核心对象”标签页中的“输入”,选择“表输入”拖到“转换”区域。 双击“表输入”图标弹出表输入对话框,填入步骤名称,选择数据库连接, 点击“获取SQL查询语句”,
7、或者直接写入SQL语句,填写附件信息,点击“预 览”按钮查看执行结果,没有错误,点击“确认”关闭对话框。KD USER INFOWizard .SQLSZLECTSTiRT_TIME ,IMSIMA-ADK,IMEI.IMEI_TPE NA1IE F?OM KDE USER ZNFO链午简島转换 替姿SQL语句里为变量召 Help鯉Q)预删恥肖点击“核心对象”一“输出”,选择Excel输出”拖入到转换区,双击Excel 输出图标,弹出对话框,选择文件名和其它附加参数,点击确认。Excel 输!1文件 内客梧式宇段ExcelSltzl|G:file.xls 浏览创建曼目录口 启动时不创逮文件扩恳
8、空xls眨舲里包醪鬃? 在文件名里包含日期? 口 在文件窖里包含时间7指走时间格式0 时同格式点击输入表的图标,同时按下shift键,再点击输出文件,将两者连接起来。 然后双击 Excel 输出进行配置。KD5_U5ERJNFQ-BEscelj 出最后一步就是执行 kettle 脚本,点击工具栏上的绿色箭头即可。豊.世譽朋 vflfefchH置 4S#S2.我WSts*=5 a*|打口底蓉韦PrAnt Job Fih 匚心*皿lParent Job FiIhobParent Job NameParent Job 叱购*呵 Direttar呼孚吕陌丈牛逸 皈刻0器InwrnAlJab.FilAi
9、iiaif-iaCifci:屢轴3战仔C餾hE起哥E!fiSnirym/MM/dd hhee;词匚熬玮封试I孑 Galhef perFuMnnce metni:5Clear the log beFore eweciition点击“启动”开始转换,在转换过程中会出现转换的信息,如下图所示。KDi_UEPJMFO3弱醸出拇行结锂笹 拥皿5更|0日古囱 凱金马tae田 WMwrifi 1.7 Pmi* data腳话4廿&=:旦=走追惜谭肩加通険爆迅环7叶如aKD5.U3EBJMOC010329IOB3C0WnEStdQ1&20915209D16209aao在运厅n.3s馄皓1Q/Uza000ffiE
10、rr1.*12Q4212M完成转换后,我们可以 Excel 输出目录中查看转换结果。注:时间字段换到 Excel 为空,修改 SELECT 语句中使用 TO_CHAR 转换成字符串,例如:TO_CHAR(START_TIME,yyyy-mm-dd HH24:MM:SS) AS START_TIME注:ExceI中的记录不能超过65535条,否则会自动关闭文件,导致转换失败。:1214A12139D1213DDDaffi*BSl.UsFWarvW阳關0上面是一个简单的数据迁徙脚本,从数据库导出数据到EXCEL文件中。Kettle 处理 HBase本教程使用的软件版本信息如下:1)Hadoop()
11、2)Pantaho Data Integration()3)HBase()。Pentaho Shim (社区版)目前支持的Hadoop版本:ApacheVersionShimPentaho Suite Ver+DoiAmloadNotes5.0inc 1 口led in 5, 05. 11. U. xNS*卫匚i Support pl:TLTLeii1 . 1 .NS*ITo Suppurt pl:ariTLe!1. 2.31NS*Ho Support pl:TLTLeii2. K.莖11 o Suppurt pl:dTiTLe!参考:http:/wiki.pe on figuri ng+P
12、e ntaho+for+your+Hadoop+Distr o+and+Version注:从上表中看出它不支持 hadoop 1.2.x 版本。解决办法是使用HDP13的插件(基于)替代,步 骤如下:1)从 下载 hdp13 的 shim 插件。Apache ClaudeiaInlel MapRVersionShim Penilflh-o Suite VertDowntoadNlotesHDP 12.XrW12 -4 S*BD Pluaiffl 1.32*UnloadHOP :W4 !) + 91)1 :l 訂tfwnloadHDP i.SforViflnNSTesting and 馳哄n l
13、is 弭pilfvig w oistoner demand. Vote hero: PDi-10266HOP 2 0rwmo IT5 D 4included ms 0.4 w5.1HOP 2 1SuffKirl Plarinedl far S:2 PDH15822) 解压到 plugins/pentaho-big-data-plugin/hadoop-configurations 目录下,目 录名为 hdp13。3) 进入 plug in s/pe ntaho-big-data-plug in 目录,修改 plug in .proper ties 文件中 的 active.hadoop.con
14、figuration 属性为,缺省值为 hadoop-20,如下:active.hadoop.configuration=hdp133)替换掉hdp13/lib目录下与Hbase和hadoop有关的Jar包,拷贝一份 hbase-site.xml 到 hdp13 目录下。| hdp13/lib/pmr 目录下替换后的 Jar 包:名称榜改日馬I 鱼i hba5e-0.94.1 S.jarp roto Lu j ava - 2.4.1 .j ar區 | zookeeper-3.4.5.I.3 .Q0-10T.j a r2014/4/22 9442013/7/2. 11:03Z013/7/Z1 11:03Executable