DATASTAGE的介绍及基本操作ppt课件

上传人:壹****1 文档编号:578907718 上传时间:2024-08-25 格式:PPT 页数:133 大小:2.39MB
返回 下载 相关 举报
DATASTAGE的介绍及基本操作ppt课件_第1页
第1页 / 共133页
DATASTAGE的介绍及基本操作ppt课件_第2页
第2页 / 共133页
DATASTAGE的介绍及基本操作ppt课件_第3页
第3页 / 共133页
DATASTAGE的介绍及基本操作ppt课件_第4页
第4页 / 共133页
DATASTAGE的介绍及基本操作ppt课件_第5页
第5页 / 共133页
点击查看更多>>
资源描述

《DATASTAGE的介绍及基本操作ppt课件》由会员分享,可在线阅读,更多相关《DATASTAGE的介绍及基本操作ppt课件(133页珍藏版)》请在金锄头文库上搜索。

1、DATASTAGE DATASTAGE 介绍及基本操作介绍及基本操作1 1内容提要:内容提要: 一、一、一、一、datastage datastage datastage datastage 介绍介绍介绍介绍 二、如何安装二、如何安装二、如何安装二、如何安装datastagedatastagedatastagedatastage 三、配置三、配置三、配置三、配置datastage datastage datastage datastage 工程工程工程工程 四、设计并运行四、设计并运行四、设计并运行四、设计并运行datastagedatastagedatastagedatastage的的的的j

2、objobjobjob 五、操作元数据五、操作元数据五、操作元数据五、操作元数据 六、操作关联数据六、操作关联数据六、操作关联数据六、操作关联数据 七、操作约束条件及数据来源七、操作约束条件及数据来源七、操作约束条件及数据来源七、操作约束条件及数据来源 八、定义查找使用的哈希文件八、定义查找使用的哈希文件八、定义查找使用的哈希文件八、定义查找使用的哈希文件 九、聚合数据九、聚合数据九、聚合数据九、聚合数据 十、十、十、十、jobjobjobjob的运行及调试的运行及调试的运行及调试的运行及调试 十一、创建十一、创建十一、创建十一、创建BasicBasicBasicBasic表达式表达式表达式表

3、达式2 2一,一,一,一,datastagedatastagedatastagedatastage的介绍的介绍的介绍的介绍 本章主要讲解本章主要讲解ETLETL的概念,的概念,datastagedatastage的介绍、组成及主要功能。的介绍、组成及主要功能。 3 3ETLETL概要概要 ETL ETL包括数据抽取(包括数据抽取(ExtractExtract)、数据转换()、数据转换(TransformTransform)以及数据加载()以及数据加载(LoadLoad)3 3个阶段。个阶段。 一般而言,这三个过程中有二次落地(生成中间文件)。一般而言,这三个过程中有二次落地(生成中间文件)。4

4、 4 Ascential DataStage Ascential DataStage 是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据仓库目标数据库的集成工具。和自动化,并将其输入数据集市或数据仓库目标数据库的集成工具。 DataStage DataStage 能够处理多种数据源的数据,包括主机系统的大型数据库、开放系统上的关系能够处理多种数据源的数据,包括主机系统的大型数据库、开放系统上的关系数据库和普通的文件系统数据库和普通的文件系统 。包括。包括Oracle,Sybase,DB2,S

5、QL ServerOracle,Sybase,DB2,SQL Server,Teradata, FTPTeradata, FTP文件系统文件系统, ,文本文件等等。文本文件等等。 数据清洗、转换、加载都可以在图形化工具里完成,同样可以灵活的被外部系统调度,提数据清洗、转换、加载都可以在图形化工具里完成,同样可以灵活的被外部系统调度,提供专门的设计工具来设计转换规则和清洗规则等,实现了增量抽取、任务调度等多种复杂供专门的设计工具来设计转换规则和清洗规则等,实现了增量抽取、任务调度等多种复杂而实用的功能而实用的功能 。DS介绍:介绍:5 5DatastageDatastage的组成:的组成:Dat

6、astageDatastage的服务器端和客户端的服务器端和客户端6 6 Datastage Datastage是是C/SC/S软件,服务器端存储所有的软件,服务器端存储所有的dsds项目和元数据,由关系型数据库(项目和元数据,由关系型数据库(RDBMSRDBMS)组成。客户端具有同服务端一样的软件接口。组成。客户端具有同服务端一样的软件接口。 客户端运行于客户端运行于windows95windows95或更高版本,服务端可运行于或更高版本,服务端可运行于windowsNT4.0windowsNT4.0或或windows2000 windows2000 版版本,本,datastagedatas

7、tage的很多版本都支持的很多版本都支持unixunix。7 7 DS AdministratorDS Administrator 在服务端管理在服务端管理dsds的项目和服务端操作。主要用于工程的参数调整,变量设置,及的项目和服务端操作。主要用于工程的参数调整,变量设置,及commandcommand操作。操作。 DS DesignerDS Designer 建立建立dsds的的jobjob并且编译执行的程序。主要用于并且编译执行的程序。主要用于jobjob的开发及编译。的开发及编译。 DS DirectorDS Director运行和监控运行和监控dsds的的jobjob。主要用于。主要用

8、于jobjob调试。调试。 DS ManagerDS Manager允许编辑和查看在允许编辑和查看在dsds中存储的内容。主要用于项目管理或中存储的内容。主要用于项目管理或jobjob的导入、导出、备份。的导入、导出、备份。8 8DataStageDataStage中的中的AdministratorAdministrator9 9 默认使用默认使用AdministatorAdministator来指定常规的服务端,用来增加或删除来指定常规的服务端,用来增加或删除DataStageDataStage工程,并且工程,并且可以设置工程的属性。可以设置工程的属性。 AdministatorAdmini

9、stator也对于总库提供命令接口。也对于总库提供命令接口。 使用使用AdministatorAdministator的的 Project Propertities Project Propertities 工程属性的窗口,可以进行工程属性的窗口,可以进行 1 1、在、在 GeneralGeneral页框中,设置页框中,设置JobJob监控的一些限制信息和监控的一些限制信息和DirectorDirector中的其他信息。中的其他信息。 2 2、在、在 PermissionPermission页框中,设置并分配开发人员组的权限页框中,设置并分配开发人员组的权限 。 3 3、在、在 Tracing

10、 Tracing 页框中,页框中, 设置或取消服务端进行跟踪。设置或取消服务端进行跟踪。 4 4、在、在 Schedule Schedule 页框中,页框中, 设置调度时运行设置调度时运行JobJob所用到的用户名和口令。所用到的用户名和口令。 5 5、在、在 TunablesTunables页框中,指定页框中,指定HashHash文件文件StageStage的读写的缓存大小。的读写的缓存大小。 在在DataStageDataStage中的中的AdministratorAdministrator设置常用服务器的默认值:设置常用服务器的默认值: 1 1、改变、改变LicenceLicence信息

11、。信息。 2 2、设置服务端连接超时时间。、设置服务端连接超时时间。1010DataStageDataStage中的中的ManagerManager1111 使用使用DataStageDataStage中的中的ManagerManager来存储和管理来存储和管理JobJob的元数据,使之可以在的元数据,使之可以在DataStageDataStage中的中的DesignerDesigner中再度被使用。中再度被使用。 元数据包括表单和文件结构和导出数据的元数据包括表单和文件结构和导出数据的RoutinesRoutines的转换等等。的转换等等。 ManagerManager是是DataStage

12、DataStage存储的一个重要的部分,可以用来加入表单和文件的结构,在左侧分存储的一个重要的部分,可以用来加入表单和文件的结构,在左侧分支树中显示支树中显示RoutinesRoutines、TransformsTransforms和和JobsJobs。 自定义的自定义的RoutinesRoutines和和TransformsTransforms也在也在DataStageDataStage中的中的ManagerManager里创建。里创建。1212DataStageDataStage中的中的DesignerDesigner1313 DataStageDataStage中的中的DesignerD

13、esigner允许使用熟练地拖拽图标和连线的方式来表示数据抽取、清洗、转换、整允许使用熟练地拖拽图标和连线的方式来表示数据抽取、清洗、转换、整合和加载的过程,并将数据导入数据仓库的表单之中。合和加载的过程,并将数据导入数据仓库的表单之中。 DesignerDesigner提供一个数据流程的模式,轻松将设置和提供一个数据流程的模式,轻松将设置和JobJob的设计有机的组成。的设计有机的组成。 使用使用DesignerDesigner,可以:,可以:1 1、指定数据如何抽取。、指定数据如何抽取。 2 2、指定数据的转换规则和进行转换。、指定数据的转换规则和进行转换。 3 3、使用参考性质的、使用参

14、考性质的LookUpLookUp到数据集市中编辑数据。到数据集市中编辑数据。 a a)例如,如果销售的记录集包括)例如,如果销售的记录集包括CustomerIDCustomerID,可以在,可以在CustomerMasterCustomerMaster表中使用表中使用LookUpLookUp查找查找到到CustomerCustomer的名称。的名称。 b b)当需要连接数据集市并使用查询,可以快速的进行访问。)当需要连接数据集市并使用查询,可以快速的进行访问。 4 4、对数据进行整合。、对数据进行整合。 5 5、在定义的约束条件中将基础数据分割成为多个输出的连接。、在定义的约束条件中将基础数据

15、分割成为多个输出的连接。 在在ToolsTools菜单中可以轻松的于菜单中可以轻松的于DirectorDirector,DesignerDesigner和和ManagerManager之间切换。之间切换。1414DataStageDataStage中的中的DirectorDirector1515 使使用用DatastageDatastage的的DirectorDirector可可以以对对设设计计的的jobjob进进行行验验证证、运运行行、任任务务调调度度和和监监控控的的工工作作。也也 可以针对可以针对job job 的运行查看运行的聚合统计情况。的运行查看运行的聚合统计情况。1616在在Dat

16、astageDatastage中进行开发中进行开发 在在AdministratorAdministrator中定义全局的和项目属性。中定义全局的和项目属性。 在在DatastageDatastage中的中的ManagerManager里导入定义源的元数据和目标的元数据。里导入定义源的元数据和目标的元数据。 在在DatastageDatastage中的中的DesignerDesigner中验证和编译中验证和编译jobjob。 在在DatastageDatastage中的中的DirectorDirector中验证、运行、和监控中验证、运行、和监控jobjob。1717 1 1、定义工程的属性、定义

17、工程的属性在在AdministratorAdministrator中。中。 2 2、打开工程。、打开工程。 3 3、导入元数据,在、导入元数据,在jobjob中定义格式、读入或写入中定义格式、读入或写入在在ManagerManager中。中。 4 4、设计、设计jobjob在在DesignerDesigner中。中。a) a) 定义数据的抽取(读取)。定义数据的抽取(读取)。b) b) 定义数据流程。定义数据流程。c) c) 定义数据的集合。定义数据的集合。d) d) 定义数据的转换。定义数据的转换。e) e) 定义数据的约束条件。定义数据的约束条件。f ) f ) 定义数据的加载(写入)。定

18、义数据的加载(写入)。g) g) 定义数据的聚合。定义数据的聚合。 5 5、编译和调试、编译和调试jobjob在在DesignerDesigner中。中。 6 6、运行和监控、运行和监控jobjob在在DirectorDirector中。中。1818DatastageDatastage的工程管理的工程管理 所有的工作都在一个工程中。所有的工作都在一个工程中。 在安装过后,需要建立一个工程,这是安装必选的项目。在安装过后,需要建立一个工程,这是安装必选的项目。 在使用它工作之前,要登录这个工程。在使用它工作之前,要登录这个工程。 可以在工程间进行导入和导出可以在工程间进行导入和导出Datasta

19、geDatastage的项目内容。的项目内容。 多个用户可以在同一时间使用同一工程,但是不能同时编辑同一个项目。多个用户可以在同一时间使用同一工程,但是不能同时编辑同一个项目。1919所有的工作都在所有的工作都在DatastageDatastage的工程里进行。在做任何事之前,那些具有同样管理权限的工程里进行。在做任何事之前,那些具有同样管理权限的人,都要先打开一个工程,即进行登录。的人,都要先打开一个工程,即进行登录。在安装过程中,工程就要求创建,这是必须做的事情。可以在安装之后,在在安装过程中,工程就要求创建,这是必须做的事情。可以在安装之后,在AdministratorAdministr

20、ator中的中的ProjectProject页框中另增加其它工程。页框中另增加其它工程。一个工程关联着一个目录,这个工程目录用来存储一个工程关联着一个目录,这个工程目录用来存储jobsjobs、 DatastageDatastage项目和元数据。项目和元数据。在做任何操作前都要先打开这个工程,即登录这个工程。在做任何操作前都要先打开这个工程,即登录这个工程。工程是自包含的很多的工程可以在同一时间被打开,在各自单独的环境打开。可以工程是自包含的很多的工程可以在同一时间被打开,在各自单独的环境打开。可以在它们之间导入或导出项目。在它们之间导入或导出项目。多用户可以在同一时间使用一个工程中工作,但是

21、多用户可以在同一时间使用一个工程中工作,但是DatastageDatastage禁止在同一时间由多个禁止在同一时间由多个用户访问同一个用户访问同一个jobjob。2020DatastageDatastage测试测试 问题一:问题一:DatastageDatastage的的DesignerDesigner是用来建立和编译是用来建立和编译jobjob、用来进行数据的抽取、转换和加载即、用来进行数据的抽取、转换和加载即ETLETL。(Yes/NoYes/No)答案一:答案一:YesYes,DesignerDesigner使用拖拽的方式将设计元素(习惯上叫使用拖拽的方式将设计元素(习惯上叫stages

22、tage)拖拽到设计区域中,经过建)拖拽到设计区域中,经过建立和编译,立和编译,JobJob就可以执行,用来进行数据的抽取、转换和加载。就可以执行,用来进行数据的抽取、转换和加载。 问题二:问题二:DatastageDatastage的的ManagerManager用来执行编译通过的用来执行编译通过的JobsJobs。(。(Yes/NoYes/No)答案二:答案二:NoNo, DatastageDatastage的的ManagerManager是用来管理元数据的,如表单结构,内置和自定义是用来管理元数据的,如表单结构,内置和自定义RoutinesRoutines等等的,使的,使Datastag

23、eDatastage用来管理资源存储的。用来管理资源存储的。2121 问题三:问题三: DatastageDatastage的的DirectorDirector用来执行编译通过的用来执行编译通过的JobsJobs。(。(Yes/NoYes/No)答案三:答案三:YesYes,使用,使用DirectorDirector来对编译通过的来对编译通过的jobjob进行验证或者运行,也可以在进行验证或者运行,也可以在jobsjobs运行过程中对其进运行过程中对其进行监控。行监控。 问题四问题四: :DatastageDatastage的的AdministratorAdministrator是用来定义全局

24、变量和设置工程属性的。(是用来定义全局变量和设置工程属性的。(Yes/NoYes/No)答案四:答案四:YesYes,可以在,可以在AdministratorAdministrator中设置工程中使用的全局变量和必要属性,如连接数据库超时,中设置工程中使用的全局变量和必要属性,如连接数据库超时,登录者权限等等。登录者权限等等。2222第二章第二章 如何安装如何安装DatastageDatastage下面的讲解中,将可以了解到:下面的讲解中,将可以了解到: 在在WindowsWindows系统中安装系统中安装DatastageDatastage服务端。服务端。 建立一个建立一个Datastage

25、Datastage的工程。的工程。 安装安装DatastageDatastage的客户端。的客户端。2323 Datastage Datastage 的服务端要首先安装,之后才可以安装的服务端要首先安装,之后才可以安装Datastage Datastage 客户端,服务端能都客户端,服务端能都安装在安装在WinNTWinNT、Windows2000Windows2000或者或者UNIXUNIX系统中,这个模块将介绍在系统中,这个模块将介绍在WindowsWindows环境下进行安环境下进行安装。装。系统的具体配置依赖于所要安装的系统的具体配置依赖于所要安装的Datastage Datastag

26、e 版本,在安装盘上找到最接近的系统版本,在安装盘上找到最接近的系统需求配置。需求配置。安装安装Datastage Datastage 服务端需要有哪些安装盘和服务端的许可,这个许可包含以下信息:服务端需要有哪些安装盘和服务端的许可,这个许可包含以下信息:2424 1 1,注册号(序列号)。,注册号(序列号)。 2 2,工程数量。,工程数量。在在DatastageDatastage服务端可以建立的最大工程数量。包括新建的工程,也包括对先前建立服务端可以建立的最大工程数量。包括新建的工程,也包括对先前建立的工程进行加上升级。的工程进行加上升级。 3 3,到期时间。,到期时间。 4 4,授权代码。

27、,授权代码。在许可信息中,这个信息必须被正确输入的。在许可信息中,这个信息必须被正确输入的。 2525安装向导会指导通过以下步骤进行:安装向导会指导通过以下步骤进行: 1 1,输入许可信息。,输入许可信息。 2 2,指定服务器的路径。,指定服务器的路径。 3 3,选择程序的文件夹。,选择程序的文件夹。 4 4,创建一个新的工程或升级已经存在的工程。,创建一个新的工程或升级已经存在的工程。2626安装安装Datastage Datastage 2727首先安装首先安装Datastage ServerDatastage Server端,鼠标点击端,鼠标点击 软件会自动安装,安装过程中系统提示使用者

28、选择安装路径和输入产品序列号。软件会自动安装,安装过程中系统提示使用者选择安装路径和输入产品序列号。在在Datastage ServerDatastage Server安装的过程中会提示用户建立一个工程。安装的过程中会提示用户建立一个工程。在安装在安装Datastage ServerDatastage Server端以后,需要安装端以后,需要安装Datastage ClientDatastage Client端,鼠标点击端,鼠标点击软件会自动进行安装,安装过程中系统提示使用者选择安装路径和输入产品序列号。软件会自动进行安装,安装过程中系统提示使用者选择安装路径和输入产品序列号。2828 安装有

29、安装有DatastageDatastage服务端的机器,必须运行着。服务端的机器,必须运行着。 需要运行需要运行DatastageDatastage的客户端。的客户端。 打开打开DatastageDatastage的控制面板,来停止或启动服务端。的控制面板,来停止或启动服务端。 当再次安装当再次安装DatastageDatastage的时候,会停止服务端。的时候,会停止服务端。2929为了保证为了保证DatastageDatastage客户端程序的正常运行,必须保证客户端程序的正常运行,必须保证DatastageDatastage的服务器保持运行的服务器保持运行状态。状态。在在Windows2

30、000Windows2000的控制面板中打开的控制面板中打开DatastageDatastage的控制面板,可以启动或停止全部的的控制面板,可以启动或停止全部的DatastageDatastage服务。服务。点击可以启动全部的服务或者停止全部的服务。点击可以启动全部的服务或者停止全部的服务。在安装或重新安装在安装或重新安装DatastageDatastage的时候,这些服务一定要全部停止。的时候,这些服务一定要全部停止。3030安装安装DatastageDatastage客户端客户端 在安装在安装DatastageDatastage服务端之后。服务端之后。 可以安装在可以安装在WinNTWin

31、NT,Windows2000Windows2000以及以及WinXPWinXP上。上。 DatastageDatastage产品的许可用于安装产品的许可用于安装DatastageDatastage的客户端。的客户端。 DatastageDatastage的操作许可只能用于安装的操作许可只能用于安装DirectorDirector和和AdministratorAdministrator。3131 Datastage Datastage的客户端必须在的客户端必须在DatastageDatastage的服务端安装过后才可以进行安装,客户端能的服务端安装过后才可以进行安装,客户端能够安装在够安装在Wi

32、ndows95Windows95、Windows98Windows98、WindowsNTWindowsNT、Windows2000Windows2000以及以及WindowsXPWindowsXP操作系操作系统上。统上。这里有俩个版本的这里有俩个版本的DatastageDatastage:1 1,开发版本的,开发版本的DatastageDatastage,包含了解所有的客户端应用程序。,包含了解所有的客户端应用程序。2 2,操作员版本的,操作员版本的DatastageDatastage只包含了需要用到的运行和监控只包含了需要用到的运行和监控JobJob的应用程序,即的应用程序,即Direct

33、orDirector和和AdministratorAdministrator。3232 安装开发版本的安装开发版本的DatastageDatastage,需要有,需要有DatastageDatastage开发版的许可。开发版的许可。 安装操作员版本的安装操作员版本的DatastageDatastage,需要有,需要有DatastageDatastage的的DirectorDirector的许可。的许可。 许可包括以下几个信息:许可包括以下几个信息: 1 1,序列号,序列号 2 2,用户限制,用户限制 3 3,到期时间,到期时间 4 4,授权认可代码,授权认可代码 这些信息必须是正确的数据。这些

34、信息必须是正确的数据。3333第三章第三章 配置配置 Datastage Datastage 工程工程下面的讲解中,将可以了解到。下面的讲解中,将可以了解到。 在在DatastageDatastage的的 AdministratorAdministrator中设置工程属性。中设置工程属性。 在在DatastageDatastage的的AdministratorAdministrator中设置用户的权限。中设置用户的权限。3434DatastageDatastage工程属性工程属性 建立或者删除建立或者删除DatastageDatastage工程。工程。 设置设置DatastageDatasta

35、ge工程的默认属性。工程的默认属性。 修改修改DatastageDatastage工程属性的方法。工程属性的方法。登录登录DatastageDatastage的的AdministratorAdministrator。选择要修改属性的工程。选择要修改属性的工程。3535 Datastage Datastage中所有的开发工作都在一个中所有的开发工作都在一个DatastageDatastage的工程中,在安装的工程中,在安装DatastageDatastage服务服务端时,默认就已经建立了一个工程,可以使用端时,默认就已经建立了一个工程,可以使用AdministratorAdministrator

36、进行工程的控制。进行工程的控制。每个工程都有其关联的目录,目录存储了在工程中建立的项目,如每个工程都有其关联的目录,目录存储了在工程中建立的项目,如JobsJobs、元数据、元数据、自定义的自定义的RoutinesRoutines等等。等等。在一个工程中工作之前,必须要先打开它(即进行登录)。在一个工程中工作之前,必须要先打开它(即进行登录)。在使用在使用DatastageDatastage的的AdministratorAdministrator时,可以设置默认的工程属性。时,可以设置默认的工程属性。3636设置设置DatastageDatastage工程属性工程属性 选择要进行修改的工程,点

37、击选择要进行修改的工程,点击“ “Properties”Properties”3737工程属性的工程属性的“ “General”General”页框页框3838点击点击DatastageDatastage的的AdministratorAdministrator的的“ “Properties”Properties”按钮,打开工程属性的窗口,这里有按钮,打开工程属性的窗口,这里有5 5个页框(个页框(“ “Mainframe”Mainframe”页框只有在许可支持大型机的页框只有在许可支持大型机的JobsJobs的时候可用),默认打开的的时候可用),默认打开的“ “General”General”

38、页框。页框。如果选择如果选择“ “Enable job administrator in Director”Enable job administrator in Director”的选择项,那么在不打开的选择项,那么在不打开AdministratorAdministrator的情况下在的情况下在DatastageDatastage的的DirectorDirector中可以运行一些管理级别的函数。中可以运行一些管理级别的函数。3939在在DirectorDirector中运行一个中运行一个JobJob的时候,事件被写入的时候,事件被写入JobsJobs的运行的日志,例如:记录了何的运行的日志,

39、例如:记录了何时开始运行时开始运行JobsJobs,何时停止,何时终止。,何时停止,何时终止。日志记录的事件增长量很大,日志记录的事件增长量很大,“ “Auto-purpe of job log”Auto-purpe of job log”选择框可以让指定用什么条件选择框可以让指定用什么条件来筛选这些事件。来筛选这些事件。可以限制记录时间的每天的数量或者运行可以限制记录时间的每天的数量或者运行JobsJobs运行的数量。运行的数量。4040工程属性的工程属性的“ “Permissions”Permissions”页框页框4141 使用这个页框可以设置访问和使用使用这个页框可以设置访问和使用Da

40、tastageDatastage的用户组权限。的用户组权限。 所有的所有的DatastageDatastage用户中,在登录用户中,在登录DatastageDatastage之前,都必须拥有一个公认的,属于自之前,都必须拥有一个公认的,属于自己的用户角色,使之用来进行登录,这样可以用来防止匿名的方式使用己的用户角色,使之用来进行登录,这样可以用来防止匿名的方式使用DatastageDatastage工程。工程。 这里有三种这里有三种DatastageDatastage用户角色:用户角色:1 1, Datastage DeveloperDatastage Developer,可以访问,可以访问D

41、atastageDatastage工程工程 全部的范围。全部的范围。2 2, Datastage OperatorDatastage Operator,可以运行、释放、,可以运行、释放、 DatastageDatastage的的JobsJobs。3 3, Datastage Production ManagerDatastage Production Manager,可以管理,可以管理Datastage Datastage 产品组件。产品组件。4242工程属性的工程属性的“ “Tracing”Tracing”页框页框4343 在这个页面设置是否在在这个页面设置是否在DatastageDatas

42、tage服务端进行跟踪处理。服务端进行跟踪处理。 DatastageDatastage服务端进行跟踪处理默认是无效的。服务端进行跟踪处理默认是无效的。 当使其有效,当使其有效, DatastageDatastage客户端运行项目的时候,所有的记录信息都要在客户端运行项目的时候,所有的记录信息都要在DatastageDatastage服务端进行监控,并写入监控文件。使用这些底层系统知识可以帮助找到服务端进行监控,并写入监控文件。使用这些底层系统知识可以帮助找到DatastageDatastage客户端的问题所在,如果跟踪设置为有效,当调用一个客户端的问题所在,如果跟踪设置为有效,当调用一个Dat

43、astageDatastage的客户端的时的客户端的时候,用户会收到一些警告的信息。候,用户会收到一些警告的信息。 警告:警告: 跟踪会消耗跟踪会消耗DatastageDatastage服务器大量的系统资源,除非用户需要诊断重大的问题,一服务器大量的系统资源,除非用户需要诊断重大的问题,一般不建议设置跟踪有效。般不建议设置跟踪有效。4444 工程属性的工程属性的“ “Schedule”Schedule”页框页框 使用“Schedule”页框,来指定在选择的项目中运行计划任务的jobs的用户名和口令,如果没有指定,Jobs会在当前系统的计划任务的用户名下运行。4545 工程属性的工程属性的“ “

44、Tunables”Tunables”页框页框 在“Tunable”页框中,可以指定当用来读取Hash文件记录时的缓存的大小,Hash文件大多数用于查找操作,这部分介绍会在下面的介绍中进行。4646第四章第四章 设计并运行设计并运行DatastageDatastage的的JobJob 下面的讲解中,将可以了解到:下面的讲解中,将可以了解到: 描述什么是描述什么是DatastageDatastage的的JobJob。 一步步讲述如何建立一步步讲述如何建立Datastage JobDatastage Job。 描述描述LinkLink和和StageStage。 识别不同类型的识别不同类型的Stage

45、Stage。 设计一个简单抽取和加载的设计一个简单抽取和加载的JobJob。 编译、验证和运行编译、验证和运行JobJob。 监控监控JobJob的执行。的执行。4747什么是什么是JobJob4848JobJob开发的浏览开发的浏览 在在ManagerManager导入数据源和目标数据库的数据结构定义。导入数据源和目标数据库的数据结构定义。 在在DesignerDesigner加入加入StageStage定义数据的抽取和加载。定义数据的抽取和加载。 加入加入TransformerTransformer和其它的和其它的StageStage来定义转换。来定义转换。 从源数据到目的数据,加入从源数

46、据到目的数据,加入LinkLink来定义数据的流向。来定义数据的流向。 编译编译JobJob。 在在DirectorDirector中,验证、运行和监控中,验证、运行和监控JobJob。 在这个讲解中,将通过一个单一Job的过程第一步,着手定义元数据。4949 Designer Designer的工作区域的工作区域5050 中间偏右是中间偏右是DatastageDatastage的设计区域,可以将的设计区域,可以将StageStage和和LinkLink从工具的板块上拖动过来放从工具的板块上拖动过来放在上面,左边是在上面,左边是“ “Repository”Repository”(存储)窗口,显

47、示的是(存储)窗口,显示的是ManagerManager中的分支。中的分支。 ManagerManager中的分支,就像中的分支,就像JobsJobs和表定义一样可以直接拖拽到设计区域,点击和表定义一样可以直接拖拽到设计区域,点击“ “ViewViewRepository”Repository”来显示来显示“ “Repository”Repository”窗口。窗口。 点击点击“ “ViewViewProperty Browser”Property Browser”来显示来显示“ “Property Browser”Property Browser”窗口,显示在设计区选窗口,显示在设计区选择的

48、项目的属性。择的项目的属性。5151DesignerDesigner的工具栏的工具栏 工具栏中的一些图标可以快捷的调用一些工具栏中的一些图标可以快捷的调用一些DatastageDatastage的内部函数,更加方便进行的内部函数,更加方便进行JobsJobs的设计工作。的设计工作。5252DesignerDesigner的的StageStage工具面板工具面板 工具面板中包含描述的图标,可以将其加入到工具面板中包含描述的图标,可以将其加入到JobsJobs设计当中。设计当中。5353 当安装当安装DatastageDatastage的时候,很多的的时候,很多的StageStage都会自动地进行

49、安装,也可以根据特定的目都会自动地进行安装,也可以根据特定的目的安装另外的的安装另外的StageStage,这些被叫做插件。,这些被叫做插件。 例如,那个叫做例如,那个叫做“ “Sort”Sort”的插件就是用来对数据排序的。的插件就是用来对数据排序的。 插件的介绍将在以后的讲解来介绍。插件的介绍将在以后的讲解来介绍。5454下面将部分的下面将部分的StageStage进行简单的说明(有些进行简单的说明(有些StageStage在普通应用中并不常用):在普通应用中并不常用):5555565657575858595960606161626263636464被动被动StageStage和主动和主动

50、StageStage 被动被动StageStage的定义是用来读写数据源的的定义是用来读写数据源的StageStage。 被动被动StageStage包括:包括:SequentialSequential,OdbcOdbc,HashHash文件的文件的StageStage。 主动主动StageStage的定义是用来数据的筛选和转换部分的的定义是用来数据的筛选和转换部分的StageStage。 主动主动StageStage包括包括:Transformer:Transformer、AggregatorAggregator和和SortSort的插件。的插件。6565 这里有俩种类型的这里有俩种类型的S

51、tageStage: 被动被动StageStage,是用来读写数据源的数据的,包括,是用来读写数据源的数据的,包括SequentialSequential、OdbcOdbc、HashHash文件的文件的StageStage,等等。,等等。 主动主动StageStage:是用来筛选和转换部分的:是用来筛选和转换部分的StageStage,包括,包括TransformerTransformer、AggregatorAggregator和和SortSort的插件,等等。的插件,等等。DatastageDatastage测试:测试:测试:测试:问题一:问题一: Sequential StageSequ

52、ential Stage是一个主动地是一个主动地StageStage。(。(Yes/NoYes/No)答案一:答案一:NoNo,由于,由于Sequential StageSequential Stage可以用于读取数据源和写入数据,但是又不能对数据可以用于读取数据源和写入数据,但是又不能对数据进行转换,所以不是主动的进行转换,所以不是主动的StageStage,而是被动的,而是被动的StageStage。6666Sequential StageSequential Stage 导出数据或加载数据到一个导出数据或加载数据到一个SequentialSequential文件。文件。 为为Sequen

53、tialSequential指定完整的路径。指定完整的路径。 指定文件的格式指定文件的格式: :定义宽度或者分隔符。定义宽度或者分隔符。 指定列的定义。指定列的定义。 指定写的形式:覆盖、追加。指定写的形式:覆盖、追加。6767SequentialSequential文件时用来从一个文件时用来从一个SequentialSequential文件导出或者加载到一个文件导出或者加载到一个SequentialSequential文件中。文件中。 在修改在修改SequentialSequential文件的时候需要指定一下内容:文件的时候需要指定一下内容: 1 1、文件的路径和名称。、文件的路径和名称。

54、2 2、文件的格式。、文件的格式。 3 3、列的定义。、列的定义。 4 4、如果、如果Sequential StageSequential Stage被用作一个目标的话,指定写入动作时选择:覆盖已存在的文件被用作一个目标的话,指定写入动作时选择:覆盖已存在的文件或者在文件基础上进行追加。或者在文件基础上进行追加。6868编辑目标端的一个编辑目标端的一个SequentialSequential文件文件StageStage6969 定义一个定义一个SequentialSequential的目标的目标StageStage类似于定义一个源的类似于定义一个源的Sequential StageSequen

55、tial Stage。 在输入的在输入的LinkLink中,定义数据导入到中,定义数据导入到StageStage的数据格式。从的数据格式。从“ “Input Box”Input Box”中输入中输入LinkLink的的列表进行选择。列表进行选择。 定义一个文件的定义一个文件的JobJob,定义文件被写入,如果文件不存在,定义文件被写入,如果文件不存在,DatastageDatastage将会自动建立,将会自动建立,在在“ “Update action”Update action”中指定数据文件是否覆盖或者追加。中指定数据文件是否覆盖或者追加。 “ “General”General”页框中的页框

56、中的“ “FilterCommand”FilterCommand”,可以指定一个过滤程序,可以使用其在抽取,可以指定一个过滤程序,可以使用其在抽取数据的过程中进行数据的过滤。数据的过程中进行数据的过滤。 举例,在读取数据之前要有一个解压缩的过程。从中选择类型或者浏览从过滤程序举例,在读取数据之前要有一个解压缩的过程。从中选择类型或者浏览从过滤程序中,在输入框中指定命令行,只有在中,在输入框中指定命令行,只有在“ “General”General”页框中的页框中的StageStage页面中选择了页面中选择了“ “Stage uses Stage uses filter commands”filt

57、er commands”的选择框,这个输入框变为可用,如果指定了过滤命令,数据浏览没有的选择框,这个输入框变为可用,如果指定了过滤命令,数据浏览没有定义,那么定义,那么“ “ViewData”ViewData”按钮不可用。按钮不可用。7070 在在“ “Format”Format”页框中,指定不同格式的目标文件,同指定源文件相同。页框中,指定不同格式的目标文件,同指定源文件相同。 如果目标文件不存在,在如果目标文件不存在,在JobsJobs运行之后,才可以浏览数据。如果这时点击了运行之后,才可以浏览数据。如果这时点击了“ “ViewData”ViewData”按钮,按钮,DatastageDa

58、tastage将会返回一个将会返回一个“ “Failed to OpenFailed to Open.” .”的错误。的错误。 在源数据的在源数据的StageStage里定义输出数据的列定义,同时定义目标里定义输出数据的列定义,同时定义目标StageStage中的相应的输入中的相应的输入LinkLink。 可以将可以将LinkLink想象成为一个通道,从一头流到另外一头,所以输入和输出的格式要保想象成为一个通道,从一头流到另外一头,所以输入和输出的格式要保持一致。持一致。7171Transformer StageTransformer Stage 很关键的主动很关键的主动StageStage。

59、 使用使用Transformer StageTransformer Stage可以定义条件、来源和字段的对应关系。可以定义条件、来源和字段的对应关系。 输入的列和输出的列进行对应。输入的列和输出的列进行对应。 在这个讲解中,我们将定义列的对应。在这个讲解中,我们将定义列的对应。7272 Transformer Stage Transformer Stage是一个重要的主动是一个重要的主动StageStage,其它主动地,其它主动地StageStage执行很多指定类型执行很多指定类型的转换。的转换。 在在Transformer StageTransformer Stage中可以指定:中可以指定:

60、 1 1、列的对应。、列的对应。 2 2、数据的来源。、数据的来源。 3 3、过滤条件。、过滤条件。 字段对应是指输入字段和输出字段进行对应,从输入列到输出列数值直接通过。字段对应是指输入字段和输出字段进行对应,从输入列到输出列数值直接通过。 数据来源的值经过计算写入到输出的列,以输入列为基础。数据来源的值经过计算写入到输出的列,以输入列为基础。 在引入的行将被写入到输出的列,约束指定的条件将有效。在引入的行将被写入到输出的列,约束指定的条件将有效。7373Transformer StageTransformer Stage元素元素7474 Transformer Transformer 有以

61、下元素:有以下元素: 在上方,左边的区域显示输入在上方,左边的区域显示输入LinkLink的列信息,如果有很多的输入的列信息,如果有很多的输入LinkLink,就会有许多,就会有许多的列显示。的列显示。 在上方,右边的区域显示的输出在上方,右边的区域显示的输出LinkLink的内容,我们不能在这里定义字段,如果有很的内容,我们不能在这里定义字段,如果有很多的输出多的输出LinkLink,就会有很多的列显示。,就会有很多的列显示。 现在,忽略右上方的现在,忽略右上方的“ “Stage Variables”Stage Variables”窗口,我们将在以后的讲解进行讲述。窗口,我们将在以后的讲解进

62、行讲述。 下方显示元数据的列定义,输入和输出的下方显示元数据的列定义,输入和输出的LinkLink。 如果有很多的输入和输出的如果有很多的输入和输出的LinkLink,那么将出现很多的页框。,那么将出现很多的页框。7575Annotation StageAnnotation Stage 使用它来在使用它来在JobJob上增加文本注释。上增加文本注释。 输入框有不同格式的设置。输入框有不同格式的设置。 当当JobJob打印的时候显示。打印的时候显示。 描述注释的描述注释的StageStage将在下一节介绍。将在下一节介绍。 增加一个或多个增加一个或多个“ “Annotation”Annotati

63、on”的的StageStage就像一个文本数据框一样进行设置,可以通就像一个文本数据框一样进行设置,可以通过在工具栏上的设置要求其是否进行显示。过在工具栏上的设置要求其是否进行显示。 这里有俩个这里有俩个“ “Annotation”Annotation”的的StageStage,“”“”Description Annotation Stage”Description Annotation Stage”将在下面一个将在下面一个讲解中进行讲述。讲解中进行讲述。7676编辑编辑Annotation StageAnnotation Stage输入框内输入的是文本类型,指定的设置有:输入框内输入的是文本

64、类型,指定的设置有:1 1、文本的字体和颜色。、文本的字体和颜色。2 2、输入框的颜色。、输入框的颜色。3 3、文字的横纵位置。、文字的横纵位置。7777编译编译JobJob在运行在运行JobsJobs之前,必须要对其进行编译,在服务端的机器上产生可以运行的编码,之前,必须要对其进行编译,在服务端的机器上产生可以运行的编码,对于编译对于编译JobsJobs,点击,点击“ “FileFileCompile”Compile”或者在工具栏上点击或者在工具栏上点击“ “Compile”Compile”按钮,编译按钮,编译JobsJobs的窗的窗口显示口显示JobsJobs编译的情况。编译的情况。编译如

65、果发生错误:编译如果发生错误:点击点击“ “Show error”Show error”来定位错误的位置。来定位错误的位置。点击点击“ “More”More”来返回关于错误更多的信息。来返回关于错误更多的信息。7878运行运行JobJob 从从DatastageDatastage的的DesignerDesigner切换到切换到DirectorDirector。 在在DirectorDirector的列表中,选择要运行的的列表中,选择要运行的JobJob点击运行。点击运行。 选择运行的属性。选择运行的属性。 验证这个验证这个JobJob。 运行运行JobJob,并在日志浏览中监控,并在日志浏览中

66、监控JobJob运行的过程。运行的过程。7979 就像知道的那样,在就像知道的那样,在DatastageDatastage的的DirectorDirector中运行中运行JobJob,可以从,可以从DesignerDesigner中的中的“ “Tools”Tools”菜单中启动,菜单中启动,DatastageDatastage的的DirectorDirector。 可以通过这个方法在可以通过这个方法在DirectorDirector、ManagerManager和和DesignerDesigner之间进行切换。之间进行切换。 这里有俩种方法运行一个这里有俩种方法运行一个JobJob: 1 1、

67、直接运行。(可以在、直接运行。(可以在DesignerDesigner运行,也可以切换运行,也可以切换 到到DirectorDirector中运行)中运行) 2 2、在以后的时间或日期里调用计划任务执行。、在以后的时间或日期里调用计划任务执行。 对于直接运行的对于直接运行的JobJob: 1 1、在列表中选择需要运行的、在列表中选择需要运行的JobJob,这个,这个JobJob必须是经过必须是经过 编译的。编译的。 2 2、点击、点击JobJob菜单中的运行,或者点击工具栏中的运菜单中的运行,或者点击工具栏中的运 行。行。这是这是JobJob运行时的设置窗口会显示出来。运行时的设置窗口会显示出

68、来。8080Datastage DirectorDatastage Director在在DirectorDirector中显示中显示JobsJobs状况的列表,运行一个状况的列表,运行一个JobJob,选择一个而后点击,选择一个而后点击JobJob菜单中的运行。菜单中的运行。其它查看内容:其它查看内容:1 1、JobJob的日志的日志从从JobJob运行产生的数量。运行产生的数量。2 2、计划任务、计划任务预览在计划的时间或日期运行预览在计划的时间或日期运行JobJob。8181运行参数设置运行参数设置8282Director Director 的日志浏览的日志浏览 在工具栏上点击在工具栏上点

69、击LogLog按钮来查看按钮来查看JobJob的日志,的日志,JobsJobs日志集合了日志集合了JobsJobs执行期间的所有事执行期间的所有事件信息。件信息。 这些事件,包括:控制事件,如:开始、结束和中止、报告信息、警告信息、错误这些事件,包括:控制事件,如:开始、结束和中止、报告信息、警告信息、错误信息、和程序发生信息。信息、和程序发生信息。8383 当点击当点击JobJob菜单中运行的时候,菜单中运行的时候,JobJob运行设置的窗口会显示出来。运行设置的窗口会显示出来。 这个窗口允许用户在以下情况下停止这个窗口允许用户在以下情况下停止JobJob的运行。的运行。 1 1、指定行数。

70、、指定行数。 2 2、指定警告消息的数量。、指定警告消息的数量。 在运行在运行JobJob之前可以将其验证,验证是保证之前可以将其验证,验证是保证JobJob运行成功地关键。包括:运行成功地关键。包括: 1 1、验证、验证 LinkLink的数据源是否准备好。的数据源是否准备好。 2 2、验证文件是否被打开。、验证文件是否被打开。 3 3、验证、验证SQLSQL是否可以查询数据。是否可以查询数据。 经过验证后点击经过验证后点击RunRun运行运行JobJob,在,在JobJob运行时列的状况会显示出来。运行时列的状况会显示出来。8484第五章第五章 操作元数据操作元数据 下面的讲解中,将可以了

71、解到:下面的讲解中,将可以了解到: 介绍介绍DataStageDataStage的的ManagerManager的构成和功能。的构成和功能。 导入和导出导入和导出DatastageDatastage的项目。的项目。 从从SequentialSequential文件中导入元数据。文件中导入元数据。 加载元数据到加载元数据到Sequential StageSequential Stage中。中。8585什么是元数据什么是元数据 Datastage Datastage和和ManagerManager是一个图形化管理是一个图形化管理DatastageDatastage项目存储的工具,包括元数项目存储的

72、工具,包括元数据和据和DatastageDatastage的其它构成,如的其它构成,如JobsJobs和和RoutinesRoutines等等。等等。 元数据是数据源和目标数据的描述的标准化。它包括诸如记录列和分割的通用元数据是数据源和目标数据的描述的标准化。它包括诸如记录列和分割的通用信息,分割标志,还包括指定列的定义,等等。信息,分割标志,还包括指定列的定义,等等。86868787 左边的包括工程的树。分了八大分支,但是可以在其下创建下一级文件夹,在工程左边的包括工程的树。分了八大分支,但是可以在其下创建下一级文件夹,在工程树下选择一个文件夹显示它的组成。在这个例子中,在工程里一个命名为树

73、下选择一个文件夹显示它的组成。在这个例子中,在工程里一个命名为” ”WHBI”WHBI”的文件夹的文件夹下创建很多下创建很多JobJob。 “ “DataElements”DataElements”分支:列出内置的和自定义的数据元素。(数据元素是数据类型的分支:列出内置的和自定义的数据元素。(数据元素是数据类型的扩展,将在下面讲述)扩展,将在下面讲述) “ “Jobs”Jobs”分支,显示在当前工程的分支,显示在当前工程的JobsJobs列表。列表。 “ “Routines”Routines”分支:先是内置和自定义的分支:先是内置和自定义的RoutinesRoutines,RoutinesRo

74、utines是是Datastage BasicDatastage Basic代码代码的一部分,可以引入到一个的一部分,可以引入到一个JobJob中。中。8888 “ShareContainers” “ShareContainers”分支:共享容器就是分支:共享容器就是DatastageDatastage的一个单独的的一个单独的SatageSatage的组成。的组成。 “ “StageType”StageType”分支:列出在一个分支:列出在一个JobsJobs中可用的中可用的StageStage的类型。内置的的类型。内置的StageStage包括在包括在DesignerDesigner中的结果

75、部分和转换部分的中的结果部分和转换部分的StageStage。 “ “TableDefinitions”TableDefinitions”分支:显示加载到一个分支:显示加载到一个JobJob的有效的表结构定义。的有效的表结构定义。 “ “Transformer”Transformer”分支:先是内置和自定义的分支:先是内置和自定义的TransformerTransformer。TransformerTransformer是可以用于是可以用于JobJob的数据转换函数。的数据转换函数。8989ManagerManager内容内容 数据源和目标数据的元数据描述。数据源和目标数据的元数据描述。 Da

76、tastageDatastage项目。项目。JobsJobs。RoutinesRoutines。表单。表单。9090 Datastage Datastage的的ManagerManager管理俩个不同类型的项目:管理俩个不同类型的项目: 数据源和目标数据的元数据描述。数据源和目标数据的元数据描述。 在在ManagerManager中叫做表单定义。中叫做表单定义。DatastageDatastage表单定义用于描述各种类型源的列定义的表单定义用于描述各种类型源的列定义的格式:结果、有关的、格式:结果、有关的、HashHash文件等等。文件等等。 可以在可以在ManagerManager或者或者D

77、esignerDesigner中创建表单的定义,可以从源或者目的导入其结构。中创建表单的定义,可以从源或者目的导入其结构。9191 Datastage Datastage的构成的构成 在在DatastageDatastage中任何一个项目(中任何一个项目(JobsJobs,RoutinesRoutines,表定义,等等)在,表定义,等等)在DatastageDatastage中存中存储储ManagerManager是接口用来存储。是接口用来存储。 DatastageDatastage组成包括整个项目,都可以从导出的文件中导入到组成包括整个项目,都可以从导出的文件中导入到ManagerManag

78、er中。中。9292Import Import 和和ExportExport ManagerManager中的所有项目,都可以导出成为一个文件。中的所有项目,都可以导出成为一个文件。 导出整个工程。导出整个工程。 用于备份用于备份 用于版本控制。用于版本控制。 用于用于DatastageDatastage的项目从一个工程到其它工程的移动。的项目从一个工程到其它工程的移动。 对于其它开发者,用于共享对于其它开发者,用于共享DatastageDatastage的的JobJob和项目。和项目。9393 Datastage Datastage中的项目包括整个工程,全部都在中的项目包括整个工程,全部都在

79、ManagerManager进行存储,可以将其导出成进行存储,可以将其导出成为一个文件。这个导出的文件能够重新导入回为一个文件。这个导出的文件能够重新导入回DatastageDatastage。 导入和导出能用作很多的目的,包括:导入和导出能用作很多的目的,包括: 备份备份JobsJobs和工程。和工程。 维持不同维持不同JobsJobs或者工程的版本。或者工程的版本。 从一个工程到另外一个工程,从一个工程到另外一个工程,DatastageDatastage项目的移动。将导出的项目,移动到其它项目的移动。将导出的项目,移动到其它的工程,将其重新导入到新的工程里。的工程,将其重新导入到新的工程里

80、。 在开发者之间共享在开发者之间共享JobsJobs和工程。导出的文件,当被压缩以后,变得很小,很容易从和工程。导出的文件,当被压缩以后,变得很小,很容易从一个开发者到其他人之间传递。一个开发者到其他人之间传递。9494导出过程导出过程 在在ManagerManager中,点击中,点击“ “ExportExportDatastage Components”Datastage Components”。 选择选择DatastageDatastage需要到导出的项目。需要到导出的项目。 指定导出的类型:指定导出的类型:dsxdsx,xmlxml。 在客户端机器上指定导出文件的路径。在客户端机器上指定

81、导出文件的路径。9595 在在ManagerManager中点击中点击“ “ExportExportDatastage Components”Datastage Components”开始导出的过程。开始导出的过程。 在在ManagerManager中任何的项目都可以将其导出成为一个文件。使用这个程序可以对工作中任何的项目都可以将其导出成为一个文件。使用这个程序可以对工作进行备份或者将项目从一个工程移动到另一个工程中。进行备份或者将项目从一个工程移动到另一个工程中。 选择导出文件的类型,可以选择整个工程或者在一个工程中的一部分项目。选择导出文件的类型,可以选择整个工程或者在一个工程中的一部分项

82、目。 指定导出文件的类型,默认的,项目被导成一个文本格式的文件,默认的导出文件指定导出文件的类型,默认的,项目被导成一个文本格式的文件,默认的导出文件是是“ “Dsx”Dsx”格式的。也可以将项目导出成为格式的。也可以将项目导出成为“ “XML”XML”格式的文档。格式的文档。 导出的文件目录是在导出的文件目录是在DatastageDatastage的客户端,而不是在服务器。的客户端,而不是在服务器。9696DatastageDatastage测试测试问题一:问题一:可以将可以将DatastageDatastage工程中的工程中的JobsJobs导出来,但是却不能将元数据导出,所以不能将元数导

83、出来,但是却不能将元数据导出,所以不能将元数据的定义导出成为一个文本。(据的定义导出成为一个文本。(Yes/NoYes/No)答案一:答案一:NoNo,元数据的定义的结构,都存在于,元数据的定义的结构,都存在于“ “Table Definitions”Table Definitions”中,而表单的定义是可以通中,而表单的定义是可以通过导入导出流通于各个工程之间。过导入导出流通于各个工程之间。问题二:问题二:DatastageDatastage工程导出的目的是存放在客户端,而不是存放在服务器。(工程导出的目的是存放在客户端,而不是存放在服务器。(Yes/NoYes/No)答案二:答案二:Yes

84、Yes。9797导出导出DatastageDatastage的项目的项目 在在DatastageDatastage的的ManagerManager的菜单上点击的菜单上点击“ “ExportExportDatastage Components”Datastage Components”。 选择选择“ “Whole Project”Whole Project”或根据需要进行选择,而后进行导出。或根据需要进行选择,而后进行导出。98989999导入导入DatastageDatastage工程工程 在在ManagerManager中,点击中,点击“ “ImportImportDatastage Com

85、ponents”Datastage Components”。 选择要导入的选择要导入的DatastageDatastage项目文件。项目文件。 选择要导入的文件,点击选择要导入的文件,点击“ “Import All”Import All”开始导入或者开始导入或者“ “Import Select”Import Select”从浏览的项目中从浏览的项目中选择一个导入。选择选择一个导入。选择“ “Overwrite Withnot Query”Overwrite Withnot Query”按钮来覆盖那些同名但没有警告的项目。按钮来覆盖那些同名但没有警告的项目。100100导入元数据导入元数据 从从

86、SequentialSequential文件中导入格式和列的定义。文件中导入格式和列的定义。 导入关联表的列的定义。导入关联表的列的定义。 导入导入HashHash文件的列的定义。文件的列的定义。 导入的信息在导入的信息在“ “Table Definitions”Table Definitions”。 在在JobJob中中StageStage可以将表定义进行加载进来。可以将表定义进行加载进来。101101 表格定义对于一些变化的数据文件和表单进行格式的定义。这些定义可以重复的是表格定义对于一些变化的数据文件和表单进行格式的定义。这些定义可以重复的是用于设计的用于设计的JobsJobs,来指定数

87、据的格式。,来指定数据的格式。 举例,可以导入举例,可以导入“ “Customers.txt”Customers.txt”文件的格式和列的定义,可以将其加载到源的文件的格式和列的定义,可以将其加载到源的“ “Sequential Stage”Sequential Stage”中,表示中,表示JobJob是从是从“ “Customers.txt”Customers.txt”中抽取数据。中抽取数据。102102 可以加载这些相同的元数据到其它的可以加载这些相同的元数据到其它的StageStage中,用来访问同样格式的数据。可以感中,用来访问同样格式的数据。可以感觉到,元数据是可以再度使用的,它可以

88、被用于格式相同的文件和数据上。觉到,元数据是可以再度使用的,它可以被用于格式相同的文件和数据上。 如果需要的列定义很相似,可以编辑定义并将其保存在一个新的名字下面。如果需要的列定义很相似,可以编辑定义并将其保存在一个新的名字下面。 也可以使用不同类型的数据相同的表单定义使用同样的格式。举例,可以导入一个也可以使用不同类型的数据相同的表单定义使用同样的格式。举例,可以导入一个表单定义从一个表单定义从一个“ “Sequential”Sequential”文件,并使其指定一个文件,并使其指定一个ODBCODBC的表单的格式。可以清楚地看到的表单的格式。可以清楚地看到元数据在格式定义上是宽松灵活的。元

89、数据在格式定义上是宽松灵活的。 可以导入和定义几个不同类型的表单定义,包括:可以导入和定义几个不同类型的表单定义,包括:“ “Sequential”Sequential”文件、文件、ODBCODBC数据源、数据源、HashHash文件和全部的表单。文件和全部的表单。103103SequentialSequential文件导入过程文件导入过程 在在Datastage ManagerDatastage Manager中,点击中,点击“ “ImportImportTable DefinitionsTable DefinitionsSequential ”Sequential ” 选择指定的选择指定的

90、“ “Sequential”Sequential”文件的目录和名称。文件的目录和名称。 选择选择ManagerManager的分类。的分类。 检查格式和列定义和编辑必要的信息。检查格式和列定义和编辑必要的信息。104104 要开始导入,点击要开始导入,点击“ “ImportImportTable DefinitionsTable DefinitionsSequential ”Sequential ”,“ “Import Meta Import Meta DataData(SequentialSequential)” ”窗体会出现。窗体会出现。 选择目录中包含的选择目录中包含的Sequentia

91、lSequential文件,在文件的列表中选择需要导入的文件。文件,在文件的列表中选择需要导入的文件。 选择文件进行导入。选择文件进行导入。 选择指定的类别(即文件夹)进行导入选择指定的类别(即文件夹)进行导入 1 1、格式为:、格式为:(类别类别/ /子类别子类别) )。 2 2、是在是在Table DefinitionsTable Definitions下的第一级子目录。下的第一级子目录。 3 3、是在是在目录下的另外一层。目录下的另外一层。105105在在ManagerManager中定义结构中定义结构106106 在在ManagerManager中,选择中,选择“ “Table Def

92、inition”Table Definition”的包含的类别。的包含的类别。 在在“ “Table Definition”Table Definition”上双击,打开上双击,打开“ “Table Definition”Table Definition”的窗口。的窗口。 单击单击“ “Columns”Columns”的页框浏览和编辑列的定义,选择的页框浏览和编辑列的定义,选择“ “Format”Format”页框来编辑文件的格式页框来编辑文件的格式说明。说明。107107导入导入SequentialSequential元数据过程元数据过程108108109109加载表结构定义加载表结构定义

93、在导入了在导入了SequentialSequential元数据结构后,可以将元数据的结构加载到元数据结构后,可以将元数据的结构加载到“ “Sequential Stage”Sequential Stage”中。中。110110第六章第六章 操作关联数据操作关联数据 下面的讲解中,将可以了解到:下面的讲解中,将可以了解到: 设置设置ODBCODBC连接来关联数据库。连接来关联数据库。 导入关联的元数据。导入关联的元数据。 从关联表中抽取数据。从关联表中抽取数据。 加载数据到关联表。加载数据到关联表。111111操作关联数据操作关联数据 在关联的源数据表单中抽取,过滤、转换数据。在关联的源数据表单

94、中抽取,过滤、转换数据。 加载数据到关联表单中。加载数据到关联表单中。 通过通过ODBC StageODBC Stage来进行连接。来进行连接。 支持用户定义支持用户定义SQLSQL。112112 可以对关系型数据执行就像对可以对关系型数据执行就像对SequentialSequential数据那样的任务。可以对关系型数据表进行抽取、数据那样的任务。可以对关系型数据表进行抽取、过滤、转换数据,也可以向关系型表单中加载数据。过滤、转换数据,也可以向关系型表单中加载数据。 虽然可以通过本机得到驱动来操作一些关系型数据库,但虽然可以通过本机得到驱动来操作一些关系型数据库,但OracleOracle等,

95、也可以使用等,也可以使用ODBCODBC来来访问这些关系型数据库。访问这些关系型数据库。 使用使用ODBC StageODBC Stage,既可以指定在一个或多个表的关联查询,也可以定义查询,还可以粘,既可以指定在一个或多个表的关联查询,也可以定义查询,还可以粘贴已经存在的查询。贴已经存在的查询。113113设置一个设置一个ODBCODBC连接连接114114 在通过在通过ODBCODBC来访问数据之前,一定要先定义一个来访问数据之前,一定要先定义一个ODBC ODBC 的数据源。在的数据源。在WindowsWindows中,在中,在控制面板中定义并使用控制面板中定义并使用3232位的位的OD

96、BCODBC数据源。数据源。 ODBCODBC数据源控制,有好几个页框。对于数据源控制,有好几个页框。对于DataStageDataStage,我们需要将数据源定义在,我们需要将数据源定义在 系统系统DSNDSN中,而不是中,而不是 用户用户DSNDSN中。中。 可以从可以从dataStagedataStage安装盘中,安装更多的通用的关系型数据库系统的驱动。安装盘中,安装更多的通用的关系型数据库系统的驱动。 点击点击 添加添加 来定义一个数据源。点击来定义一个数据源。点击 添加添加 后,会显示出一系列的驱动列表。选择适当的驱后,会显示出一系列的驱动列表。选择适当的驱动而点击动而点击 完成完成

97、 。 不同关系型数据库有不同的意图,在这个例子中,不同关系型数据库有不同的意图,在这个例子中, 定义一个定义一个 Microdoft AccessMicrodoft Access作为数据作为数据源:源: 1. 1. 在在 数据源名称数据源名称 输入框中定义数据源的名称。输入框中定义数据源的名称。 2. 2. 点击点击 选择选择 选择一个存在的数据库,定义一个连接。选择一个存在的数据库,定义一个连接。 3. 3. 点击点击 创建创建 ,针对这个数据库定义一个连接。,针对这个数据库定义一个连接。115115导入导入ODBCODBC元数据元数据116116 从从ODBCODBC数据中导入表单定义,类

98、似于从数据中导入表单定义,类似于从 Sequntial Sequntial 文件中导入结构定义。在文件中导入结构定义。在ManagerManager中点中点击菜单击菜单 Import -Import -Table Definitions-Table Definitions- ODBC Table DefinitionsODBC Table Definitions, 开始进行导入。开始进行导入。 DSNDSN列表显示出列表显示出DataStageDataStage服务端定义的数据源。选择需要导入的数据源,如果需要,服务端定义的数据源。选择需要导入的数据源,如果需要,需要数据用户名和口令。需要数据

99、用户名和口令。 这时这时 Import Metadata Import Metadata 窗口显示出来。列表显示出数据库中所有可以用到的表单,可供窗口显示出来。列表显示出数据库中所有可以用到的表单,可供导入。选择一个或多个表单核导入的列别,点击导入。选择一个或多个表单核导入的列别,点击 OKOK即可。即可。117117抽取关系型数据抽取关系型数据 从关系型数据库表单中抽取数据,类似于从一个Sequential文件中抽取数据,除了使用ODBC的Stage代替了Sequential的Stage。 在这个例子里,从一个关系型数据表单中抽取数据,加载到一个Sequential文件中。118118设置设

100、置ODBCODBC的的StageStage在在ODBC Stage ODBC Stage 的的 General General 页框中,在页框中,在 Data Source Name Data Source Name 输入框中指定输入框中指定ODBCODBC数据数据源名称,或输入变量。源名称,或输入变量。可以点击可以点击 Get SQL InfoGet SQL Info按钮,重新从按钮,重新从ODBCODBC数据库中获得标志和分割符。数据库中获得标志和分割符。119119显示表单列表显示表单列表 在在 Outputs Outputs 页框中的页框中的 General General 页框中,指

101、定表单的名称。页框中,指定表单的名称。 选择选择 General Query General Query 来定义来定义SQL SQL 的声明,在的声明,在 Columns Columns 和和 Selection Selection 页框中选择页框中选择 User-User-defined SQLQuerydefined SQLQuery来写自定义的来写自定义的SQL SQL 来连接数据库。来连接数据库。120120加载列定义加载列定义 在在 Columns Columns 页框页框iuazhongiuazhong加载在加载在Manager Manager 中定义的表单结构。这个过程和中定义的

102、表单结构。这个过程和 SeuentialSeuential文件文件导入类似。导入类似。 在点击在点击 LoadLoad, 那个那个 Select Columns Select Columns 窗口出现,选择的列的数据将从显示的列里面抽取窗口出现,选择的列的数据将从显示的列里面抽取出来。出来。121121Selection CriteriaSelection Criteria 简单的说,在简单的说,在 SelectionSelection页框中指定一个页框中指定一个Where Where 条件或另外的条件或另外的SQLSQL字字 句。句。 其他的字句根据需要加在其他的字句根据需要加在SQLSQL

103、条件,就像在条件,就像在SQLSQL语句后面加语句后面加 Order By Order By 那样。那样。122122浏览浏览SQLSQL语句语句 这个这个 View SQLView SQL页框中显示将要用来从表单中查询数据的页框中显示将要用来从表单中查询数据的SQLSQL语句。语句。 这些这些SQLSQL语句是只读的,当即语句是只读的,当即 View DataView Data可以测试可以测试SQLSQL语句查询数据库的数据是否有效。语句查询数据库的数据是否有效。123123自定义自定义SQLSQL查询查询 如果想自定义如果想自定义SQLSQL查询,在查询,在 General General

104、 页框中点击页框中点击 User defined SQL QueryUser defined SQL Query, 可以写可以写或者粘贴或者粘贴SQLSQL语句到语句到 SQL QuerySQL Query页框中的页框中的 SQL For Primary Inputs SQL For Primary Inputs 中。中。124124ODBCODBC目标目标StageStage 指定数据源。指定数据源。 指定表单名称。指定表单名称。 选择更新事件:写入或者更新。选择更新事件:写入或者更新。 选择是否创建表单。选择是否创建表单。 加载或定义列结构。加载或定义列结构。 编辑一个目标编辑一个目标OD

105、BCODBC的的StageStage就像编辑一个源就像编辑一个源ODBCODBC的的StageStage一样。包括以下几个内容:一样。包括以下几个内容: 1. 1. 指定一个包含数据源的目标表单。指定一个包含数据源的目标表单。 2. 2. 指定表单的名称。指定表单的名称。 3. 3. 选择更新的动作,也可以选择出入或更新动作。选择更新的动作,也可以选择出入或更新动作。 4. 4. 可以随意的建立表单。可以随意的建立表单。 5. 5. 从从Manager Manager 的的 Table Definition Table Definition 加载列的定义。加载列的定义。125125加载关系型数

106、据加载关系型数据 当使用当使用ODBC Stage ODBC Stage 作为一个目标,在作为一个目标,在Stage Stage 里有一些设置的与源设置有些不同。里有一些设置的与源设置有些不同。 从从 Update Action Update Action 中选择动作类型执行。中选择动作类型执行。 可以很容易的从可以很容易的从DataStageDataStage中创建一个目标表单,或者加载数据到一个存在的表单。中创建一个目标表单,或者加载数据到一个存在的表单。 在在 View SQL View SQL 页框中,可以查看页框中,可以查看SQLSQL语句,用来向目标数据表插入数据。语句,用来向目标

107、数据表插入数据。126126编辑编辑DDLDDL 在在 Edit DDL Edit DDL 页框,可以建立和编辑建立表单的语句,用来建立一个目标的表单。页框,可以建立和编辑建立表单的语句,用来建立一个目标的表单。 如果要对列定义进行一个改变,要重新定义建立表单的语句,点击如果要对列定义进行一个改变,要重新定义建立表单的语句,点击 Create DDLCreate DDL按钮。按钮。127127事务控制事务控制128128 事务处理:对于读取数据允许指定一个事务处理的水平。处理水平是如何在事务和事务之事务处理:对于读取数据允许指定一个事务处理的水平。处理水平是如何在事务和事务之间冲突的调解。间冲

108、突的调解。 默认的,在默认的,在 COMMITCOMMIT之前,所有的行都写入到目标数据表。在之前,所有的行都写入到目标数据表。在 Rows Per TransactionRows Per Transaction输入输入框,指定在提交前写入记录的行数,就是说写入多少行之后进行提交处理框,指定在提交前写入记录的行数,就是说写入多少行之后进行提交处理 DataStage DataStage 测试测试测试测试 问题一:问题一:问题一:问题一: 使用一个使用一个使用一个使用一个ODBCODBC的的的的StageStage,只可以对一张表单进行数据抽取。(,只可以对一张表单进行数据抽取。(,只可以对一张

109、表单进行数据抽取。(,只可以对一张表单进行数据抽取。(Yes/NoYes/No) 答案一:答案一: NoNo。可以通过。可以通过SQLSQL语句在一个数据源中关联多张表。语句在一个数据源中关联多张表。129129使用本地连接使用本地连接 使用使用Oracle8IOracle8I的插件要比使用的插件要比使用ODBCODBC的的StageStage在访问在访问OracleOracle表单,在性能上效率要高。表单,在性能上效率要高。 改良错误的处理改良错误的处理 。 本地连续支持。本地连续支持。导入表单结构定义。导入表单结构定义。当执行一个查询,查询结果集。当执行一个查询,查询结果集。新型的数据结构

110、和接口。新型的数据结构和接口。130130 Oracle8I Oracle8I的插件让快速有效的从的插件让快速有效的从StageStage中加载数据流(例如,中加载数据流(例如,ODBC StageODBC Stage、Sequential StageSequential Stage等等)到目标等等)到目标OracleOracle数据库表单中。数据库表单中。 OracleOracle数据库客户端可以安装在数据库客户端可以安装在WindwosNT or UNIXWindwosNT or UNIX操作系统上,用来访问操作系统上,用来访问OracleOracle服务端,可以安装在服务端,可以安装在W

111、indwosNT or UNIXWindwosNT or UNIX操作系统上。操作系统上。131131Oracle8Oracle8插件的例子插件的例子132132 这插件在设计的工作区域就像其他这插件在设计的工作区域就像其他StageStage一样使用。可以抽取或写入数据到一样使用。可以抽取或写入数据到OracleOracle表表单。单。 具有以下特点:具有以下特点: 1 1、每个、每个Oracle8Oracle8的插件的插件StageStage是一个被动是一个被动StageStage,可以有若干条输入输出,可以有若干条输入输出LinkLink。 2 2、输入、输入LinkLink指定要写入的

112、数据。加载入指定要写入的数据。加载入OracleOracle数据库的数据以数据流的形式,可数据库的数据以数据流的形式,可以指定一个输入以指定一个输入LinkLink的数据,使用的数据,使用DatastageDatastage生成的生成的SQLSQL语句或自定义的语句或自定义的SQLSQL语句。语句。 3 3、抽取的数据在输出的、抽取的数据在输出的LinkLink中,是以记录流的形式从中,是以记录流的形式从OracleOracle数据库中读取数据。数据库中读取数据。可以指定一个输出可以指定一个输出LinkLink的数据,使用的数据,使用DatastageDatastage生成的生成的SQLSQL语句或自定义的语句或自定义的SQLSQL语句。语句。 4 4、从一个、从一个OracleOracle数据库读取数据在输出的数据库读取数据在输出的LinkLink中有关键的记录。(读取记录使用中有关键的记录。(读取记录使用关键领域,在关键领域,在SQLSQL语句中的语句中的WhereWhere字句部分)字句部分)133133

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号