数据集成研讨会资料之二-修订编选

上传人:l****6 文档编号:149398909 上传时间:2020-10-26 格式:PDF 页数:37 大小:1.86MB
返回 下载 相关 举报
数据集成研讨会资料之二-修订编选_第1页
第1页 / 共37页
数据集成研讨会资料之二-修订编选_第2页
第2页 / 共37页
亲,该文档总共37页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《数据集成研讨会资料之二-修订编选》由会员分享,可在线阅读,更多相关《数据集成研讨会资料之二-修订编选(37页珍藏版)》请在金锄头文库上搜索。

1、 用于用于 BI 和数据仓储的实时数据集成和数据仓储的实时数据集成 2 议题议题 为何用实时数据实现 BI? 用于实现实时 BI 的体系结构 实时数据集成要考虑的因素 数据移动 数据质量与监测 客户案例 总结 3 引子引子 4 引子引子 不用不用BIBI可以做到吗?可以做到吗? 传统传统BIBI可以做到吗?可以做到吗? 什么因素最重要?什么因素最重要? 5 业务智能的发展业务智能的发展 模式转变 业务重点业务重点 主要用户主要用户 时间范围时间范围 使用模型使用模型 数据数据 信息来源:信息来源:Intelligence Solutions Inc. 运营 BI 管理和优化日常业务运营 LOB

2、 经理、一线员工、运营系统 一天之内 事件驱动、事件处理 实时、实时、低延迟历史数据低延迟历史数据 战略 BI 组织长期发展目标 管理人员、分析师 数月或数年 依赖查询/响应 历史量度历史量度 6 为何用实时数据实现为何用实时数据实现 BI? 实时实时 = 相关可操作性信息相关可操作性信息 提高洞察以制定运营决策提高洞察以制定运营决策 通过运营效率改善客户服务通过运营效率改善客户服务 和节省成本和节省成本 提高盈利能力、客户忠诚度提高盈利能力、客户忠诚度 和竞争优势和竞争优势 7 实时运营实时运营 BI 实战实战 信息来源:信息来源:Intelligence Solutions Inc. 网络

3、研讨会:无处不在的运营网络研讨会:无处不在的运营 BI。 欺诈检测欺诈检测 客户流失客户流失 网上促销优化网上促销优化 基于位置的服务基于位置的服务 联系人优化联系人优化 供应链改善供应链改善 8 实时与适时实时与适时 实时捕获、适时使用实时捕获、适时使用 IT 不应成为业务桎梏:投资于面不应成为业务桎梏:投资于面 向未来的解决方案向未来的解决方案 考虑技术优势:节省成本、提高考虑技术优势:节省成本、提高 可靠性和性能可靠性和性能 9 议题议题 为何用实时数据实现 BI? 用于实现实时 BI 的体系结构 实时数据集成要考虑的因素 数据移动 数据质量与监测 客户案例 总结 10 用于实现实时用于

4、实现实时 BI 的体系结构的体系结构 单个源、运营报告 仅限于单个应用 便于将 BI 整合到事务处理中 10 OLTP OLTP OLTP ODS ODS EDW 报告实例报告实例 整合多个源以生成报告 BI 应用使用运营数据,运行在 ODS 上 使用包含运营数据和历史数据的多个源 BI 应用运行在 ODS 和 DW 上,以便将历史数据分析 与事务数据相结合 11 向向 ODS/DW 加载数据的常用方法加载数据的常用方法 及其缺点及其缺点 自定义批处理 脚本 非实时 需要批处理窗口 管理成本高昂 恢复能力有限 SQL 查询与数 据库触发器 接近实时 开销过高 存在干扰 部署和维护成本高昂 恢复

5、能力非常有限 12 议题议题 为何用实时数据实现 BI? 用于实现实时 BI 的体系结构 实时数据集成要考虑的因素 数据移动 数据质量与监测 客户案例 总结 13 避免手工脚本 脚本消耗源系统资源较大,因此可能影响运营服务水平 脚本可管理性差 数据实时性 实时数据才更具操作意义 确保数据质量 提高实时报告准确性 成功实施运营成功实施运营 BI 要考虑的因素要考虑的因素 14 Oracle GoldenGate提供提供异构异构环境间事务数据的环境间事务数据的实时实时、 低影响的低影响的捕获、路由、转换和交付捕获、路由、转换和交付。 主要独特优势:主要独特优势: 非侵入、低影响、亚秒级延迟 开放的

6、、模块化的体系结构 支持异构源和目标 维护事务完整性 轻松面对中断和故障 Oracle GoldenGate 是什么?是什么? 性能性能 灵活、可扩展灵活、可扩展 可靠可靠 15 Oracle GoldenGate 用例用例 满足实时数据需求的企业级解决方案 基于日志的实时 更改数据捕获 异构源系统 EDWODS EDW active-active双活 零停机迁移和升级 实时 BI 完全主动 分布式数据库 报告 数据库 ETL ETL 查询分流 数据分发 新的数据库/ 操作系统/硬件/应用 全球数据中心 SOA/EDA Oracle GoldenGate 降低成本 降低风险 实现卓越的运营 1

7、6 Oracle GoldenGate 工作原理工作原理 LAN/WAN Internet TCP/IP capture 队列 datapumpdelivery 队列 capture:通过读取事务日志,在事务发生时捕获(也可筛选)提 交的事务。 队列:准备数据,使数据排入队列以备路由。 datapump:分发数据以便路由到目标。 路由路由:压缩、加密数据以便路由 到目标。 delivery:保证事务数据完整,根据需要转 换数据。 源 Oracle 和 非 Oracle 数据库 目标 Oracle 和 非 Oracle 数据库 17 Oracle GoldenGate 工作原理工作原理 LAN/

8、WAN Internet TCP/IP capture 队列 datapumpdelivery 队列 capture:通过读取事务日志,在事务发生时捕获(也可筛选)提 交的事务。 队列:准备数据,使数据排入队列以备路由。 datapump:分发数据以便路由到目标。 路由路由:压缩、加密数据以便路由 到目标。 delivery:保证事务数据完整,根据需要转 换数据。 源 Oracle 和 非 Oracle 数据库 目标 Oracle 和 非 Oracle 数据库 双向 18 数据库操作系统和平台 Oracle GoldenGate 捕获捕获: Oracle DB2 Microsoft SQL S

9、erver Sybase ASE Teradata Enscribe SQL/MP SQL/MX Oracle GoldenGate 交付交付: 上述各项,以及: MySQL、TimesTen、Netezza、Greenplum、 HP Neoview 以及任何 ODBC 兼容数据库 ETL 产品 JMS 消息队列 Timesten Windows 2000、2003、XP Linux Sun Solaris HP NonStop HP-UX HP TRU64 HP OpenVMS IBM AIX IBM z/OS AS/400 18 Oracle GoldenGate 11g 支持的数据库和

10、操作系统支持的数据库和操作系统 19 Oracle GoldenGate 拓扑结构拓扑结构 单向单向 查询分流 零停机迁移 双向双向 热备份或主动-主动, 实现高可用性 对等对等 负载平衡、多主 广播广播 数据分发 集成集成/整合整合 数据仓库 通过消息传递通过消息传递 进行数据分发进行数据分发 BPM 20 用于用于 BI 和和 ODS 的实时数据集成的实时数据集成 低影响的更改数据捕获、转换和交付 BI 应用应用 生产生产 OLTP 数据库数据库 ODS 事务5事务4事务2事务1事务3 实时事务流实时事务流 亚秒级延迟 不影响源系统 读一致的更改数据保障引用完整性 捕获、交付时或数据库内的

11、转换 通过 Oracle 应用认证,可对运营报表进行分流 Oracle GoldenGate LAN/WAN/ Internet 捕获 源跟踪 目标跟踪 交付 21 议题议题 为何用实时数据实现 BI? 用于实现实时 BI 的体系结构 实时数据集成要考虑的因素 数据移动 数据质量与监测 客户案例 总结 22 NameAddressCityStateZipPhoneEmail Bob Williams36 Jones AvenueNewtonMA02106617 555 Robert Williams36 Jones Av.MA02106617555000 Burkes, Mike and Il

12、da38 Jones av.NwetonMA02106617-532- Jason Bourne, Bourne & Cie. 76 East 51stNewtonMA617-536-54806175541329 数据位于错数据位于错 误的字段误的字段 匹配的记录匹配的记录 输入错误输入错误 企业名和联系人企业名和联系人 姓名混在一起姓名混在一起 多个姓名多个姓名 非标准格式非标准格式 缺少数据缺少数据 数据质量问题示例数据质量问题示例 客户数据 23 分组质量考虑的问题数据质量问题示例 与其他数据与其他数据 的关系的关系 引用完整性引用完整性 记录是否位于预计的位置?这些记录是否包含不需要的

13、记录是否位于预计的位置?这些记录是否包含不需要的 数据或无效数据?数据或无效数据? 引用文件引用文件/表是否完整?表是否完整? 事务记录中包含的产品代码在产品表事务记录中包含的产品代码在产品表/文件中不存在文件中不存在 基数基数 实体与属性间关系的结构是否保持一致实体与属性间关系的结构是否保持一致?某个客户有多条某个客户有多条“现有客户配置文件现有客户配置文件”记录记录 字段结构字段结构 格式格式 值是否遵循一致的格式标准值是否遵循一致的格式标准? 出现出现 xxxxxxxxxx、(xxx) xxx-xxxx、 1.xxx.xxx.xxxx 等格式不一致的电话号码等格式不一致的电话号码 基于标

14、准基于标准 对数据元素的定义和解释是否一致对数据元素的定义和解释是否一致? 在一个系统中性别代码在一个系统中性别代码 = M、F、U,而在,而在 另一个系统中性别代码另一个系统中性别代码 = 0、1、2 一致一致 值在各个系统和文件中是否具有相同的含义值在各个系统和文件中是否具有相同的含义?各部门的利润计算方式不同,使用了两个不同的公式各部门的利润计算方式不同,使用了两个不同的公式 数据值的内数据值的内 容容 全面全面 是否包含所需的全部数据?是否包含所需的全部数据?17% 的客户姓名数据为空的客户姓名数据为空 准确准确 数据是否准确地代表了实际情况,数据是否准确地代表了实际情况,即是否是可靠

15、的来即是否是可靠的来 源源? 某个标记为某个标记为“活动的活动的”供应商六年前就已停业供应商六年前就已停业 有效有效 数据值是否在业务定义的许可范围内?数据值是否在业务定义的许可范围内?事务数据事务数据 = 02/07/1902,但业务开始于,但业务开始于 1969 年年 适用适用 信息对于企业是否有价值?数据所传达的信息是否符合信息对于企业是否有价值?数据所传达的信息是否符合 常理,能为企业所接受?常理,能为企业所接受? 某人有一个某人有一个 SIC 代码代码 某个业务有一个性别代码某个业务有一个性别代码 存在哪些数据异常存在哪些数据异常? 我们如何解决这些问题我们如何解决这些问题? 以后再

16、出现新问题时以后再出现新问题时 我们怎么办我们怎么办? 如果为了达到业务目标我还需要如果为了达到业务目标我还需要 其他信息,该怎么办其他信息,该怎么办? 什么样的流程可以从源头阻断错误数据什么样的流程可以从源头阻断错误数据? 管理数据质量的复杂性管理数据质量的复杂性 IT 和业务考虑事项 24 对数据质量的挑战好比一座冰山 对数据质量的最大威胁是我们看不见的那些部分 Data Profiling 降低水位线,使质量问题露出水面,清晰暴露 出来 已知的已知的 数据问题数据问题 怀疑的怀疑的 数据问题数据问题 意想不到的意想不到的 数据问题数据问题 风险可控制 业务规则可管理 预期明朗 业务用户高度关注 风险不可控制 业务规则不得而知 没有预期 业务用户极少关注 问题明朗化问题明朗化 数据质量好比一座冰山 25 数据价值衰落 数据是一种资产,其价值随时间而衰

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > 总结/计划/报告

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号