DataService操作手册－金锄头文库

资源描述

《DataService操作手册》由会员分享，可在线阅读，更多相关《DataService操作手册（16页珍藏版）》请在金锄头文库上搜索。

1、DataServices培训总结-操作手册目录一、DS简介二、DS数据加载方式三、DS进行数据抽取模型开发的基本过程四、DS创建数据源系统和目标系统的数据存储 1、Oracle数据库作为数据源系统2、ECC乍为数据源系统3、HANA数据库作为目标系统五、全量加载过程 1、仓ll建 Project 和 Job2、导入源表的元数据到资源库 3、仓 U 建 Data Flow 4、设置源表和目标表 5、手工执行Job六、基于表比较的增量加载 1、在Job下定义工作流 2、在工作流中定义数据流 3、力口入 Table Comparison 控件4、设置 Table_Comparison 控件七、基

2、于时间戳的增量加载 1、在Job下定义工作流2、定义Script控件3、定义处理新增数据的数据流和处理更新数据的数据流八、DS中常用控件介绍1、Key Generation 2、Case3、Merge4、Validation 5、设置过滤器和断点九、定义Job定期执行 1、登录 Data Services Man ageme nt Con sole 2、定义 Batch Job Schedules 十、其他注意事项一、DS简介SAP BusinessObjects Data Services 是通过 SAP HAN 献证的 ETL 工具。采用数据批量处理的方式，定期执行后台作业，将数据从多

3、个业务系统中抽取出来，并进行必要的处理（转换，合并，过滤，清洗），然后再加载到HANA数据库中。DS的组件之间的关系：Man ageme nt Con sol :管理控制台是网页版 DS管理工具，可以进行一些系统配置和定义Job执行Designer :定义包括Designer是一个具有易于使用的图形用户界面的开发工具数据映射，转换和控制逻辑的数据管理应用程序，创建包含工作流(作业执行定义) 和数据流 ( 数据转换定义) 的应用程序Repository应用程序设计器使用的本地资源库用来存储 Data Services 对象 (如项目，作业，工作流，和数据流) 的定义和源和目标的元数据Job s

4、erver ：作业服务器启动数据移动的从多个不同种类的源集成数据的引擎，执行复杂的数据转换，并管理从ERP 系统和其他源的抽取和事务二、 DS 数据加载方式全量加载增量上载a) 基于表比较作业在执行时读取数据源和目标中的全部数据，在服务器的内存中进行比较，计算数据差异b) 时间戳增量需要在数据源中添加时间戳字段，一般为创建时间和最后修改时间，在抽取作业中定义对两个时间戳字段进行对比，符合条件的创建时间条目进行插入，符合条件的修改时间条目进行更新c) 利用数据库CDC ( changed data capture )首先需要开启数据库的 CDC服务，为数据库实例启用 CDC功能，为

5、源表启用 CDC功能。在这种模式下， DS 的增量更新不再直接访问源表，而是在与源表相关的变更记录表中读取增量三、 DS 进行数据抽取模型开发的基本过程为数据源创建数据存储导入源表的元数据到资源库为 SAP HANA 目标系统创建数据存储新建 DS 项目和批量作业新建 DS 数据流：定义源表和目标表，定义变量、编辑 Query 和Map_CDC_Operation执行批量作业四、 DS 创建数据源系统和目标系统的数据存储1 、 Oracle 数据库作为数据源系统登录 Data Services Designer ，在本地对象库的数据存储页签中单击鼠标右

6、键，选择新建菜单创建数据存储“ EAM_TES ”在弹出的对话框中输入EAM 数据库的连接信息2 、 ECC 作为数据源系统DataStore 时，输入 ECC 的连接信息3 、 HANA 数据库作为目标系统在创建 DataStore 时，输入 HANA 数据库的连接信息五、全量加载过程1 、创建 Project 和 Job在本地对象库的 project 页签中单击鼠标右键，选择新建菜单，创建项目“ ERP_D ” 双击该项目，在“ Project Area ”，可以在该项目下创建Job2 、导入源表的元数据到资源库在本地对象库的数据存储页签中，选择源系统的数据存储，单击鼠标邮件，选择“ I

7、mport By Name ”，输入需要导入到资源库的表名称。导入成功后，在数据存储的 table 目录下可以看到导入的表3 、创建 Data Flow单击“ General ” Job ,在右边空白区域单击鼠标邮件，选择“Add New - Data Flow4 、设置源表和目标表单击创建的 Data Flow ，将需要导入到 HANA 数据库中的源表拖入到 Data Flow 区域中，将 Data Flow 区域右侧的工具条中的模版表拖入Data Flow 区域创建模版表输入模版表名称、 HANA 目标系统的数据存储、 HANA 数据库存放DS 抽取数据表的用户名。连接源表和目标表

8、双击模版表，设置“ Options ”中的“ Use NVARCHAR for VARCHAR5 、手工执行Job选择 Job ，单击鼠标右键，选择“ Execute ”执行成功之后，在 HANA 数据库中的 ERPDSUSER 可以看到“ T161T ”可以查看数据表的内容。执行过程信息和结果可以在监控器中查看。六、基于表比较的增量加载1 、在 Job 下定义工作流2 、在工作流中定义数据流在数据流中定义源表和模版表，执行 Job, 执行成功之后，在目标系统数据存储的Template Table 目录下可以看到创建的模版表3 、加入 Table_Comparison 控件选择模版表

9、，单击鼠标邮件，选择“ Import Table ”。模版表会更新为 Tables 目录下的数据表。通过将转换-数据集成中的“Table_Comparison ”控件拖入到数据流中的方式添加Table_Comparison ”控件将源表连接“ Table_Comparison ”控件，“ Table_Comparison ”控件连接目标表。4 、设置 Table_Comparison 控件要比较双击“ Table_Comparison ”控件，设置相关参数：比较的目标表、表的主键，需当需要比较的字段为空时，可以加快处理速度。保存后执行会比较所有字段。建议按照需要填写需要比较的字段，Jo

10、b 。七、基于时间戳的增量加载1 、在 Job 下定义工作流在工作流中定义Script 控件，读取数据抽取后最新的创建时间和更改时间，定义一个处理新增数据的数据流和一个处理更新数据的数据流2 、定义 Script 控件在 Script 控件中需要使用变量存放读取的最新的创建时间和最新的更改时间。选择 Job ，在工具栏选择“ Variables ”按钮，创建全局变量双击“ Script ”控件，编写 SQL 语句，从 HANA 数据库表中读取最新的创建时间和更改时间3、定义处理新增数据的数据流和处理更新数据的数据流双击“ EBAN_Ne ”数据流，加载源表， Query ， Map_CDC_

11、Operation 控件和目标表双击Query )在输出字段中增加“ Sequenee和“Operation”两个字段。“ Sequenee ” 字段使用函数gen_row_num() 进行赋值，“ Operation ”赋值为 T 在 Quey 中设置 Where 条件双击 Map_CDC_Operation 控件，设置CDC Columns同样的方式定义“ EBAN_Up ” d 数据流，在Query 的 where 条件中定义为在 Query 的数据结果中增加 “ Sequenee ”和“ Operation ”两个字段。 “ Sequenee ” 字段使用函数gen_row_num()

12、进行赋值，“ Operation ”赋值为 U保存后，执行Job 。可以通过修改源系统数据测试基于时间戳的增量加载。Source，数据八、 DS 中常用控件介绍1 、 Key_Generation在源表基础上为目标表重新生成主键在 Query 中增加“ ID ”字段，赋值为 0 。在 Key_Generation 控件中设置目标表、主键字段、主键值增加量2 、 Case将源表根据规则进行拆分双击 Case 控件，设置拆分条件当 SOURCE = 1 时，输出 SPFLI_1 , 当 SOURCE =2 寸，输出 SPFLI_23 、 Merge将具有同样数据结构的源表进行合并在 Query

13、中增加输出字段Source , 赋值为1 。在 Queryl 中增加输出字段赋值为 2在 Merge 中将两个表的内容合并输出。4 、 Validation提取数据源表中的正确数据，将错误数据单独存放在其他表中双击 Validation 控件，设置“ Validation Rule ”5 、设置过滤器和断点选择源表到目标表的连接线，单击鼠标右键，选择 Set Filter/Breakpoint ，设置Debug 条件（当满足某种条件时进入断点，或者在满足过滤条件的同时执行多少条过滤器和断点结合使用，用于设置Debug 的条件后时进入断点）选择 Job ，单击鼠标右键，选择 Start

14、debug 工具栏上的按钮可以控制执行下一条数据、继续执行、终止 DebugDebug 过程中进入断点后，可以一次查看数据加载结果九、定义 Job 定期执行1 、登录 Data Services Management Console单击工具栏的“ Data Services Management Console ”按钮进入 Data ServicesManagement Console 的登录界面单击进入 Administrator 界面2 、定义 Batch Job Schedules在 Batch Job Configuration 页签选择 Add Schedules 进入批量执

15、行Job 的设置界面可以设置每周的某一天执行（一周执行一次）或则每月的某一天执行（一个月执行一次），也可以设置为每天都执行。都选“ Recurring ”则会定期循环执行，否则只执行一次。可以设置一天执行一次，也可以一天执行多次，设置开始执行时间。上图中如果设置为一天多次执行，开始时间为上午1 点，持续时间为 600 分钟，间隔时间为 360 分钟，则 Job 会在一天的上午 1 点和上午 6 点各执行一次。如果设置时间间隔为 240 分钟，则 Job 会在一天的上午 1 点、上午 5 点和上午 9 点各执行一次。（总持续时间不超过10 小时）。十、其他注意事项1 、客户端安装包需要注意和服务器DS 版本一致2 、在第一次登录 CMS 信息时，无法成功。 ping sapdstest 也失败，需要在host文件中添加对应的地址和域名3 连接 Oracle 数据库作为数据源时，需要在客户端上安装 Oracle 客户端，设置t

展开阅读全文

DataService操作手册

最新文档