数据仓库解决方案及实施关键过程

上传人:我*** 文档编号:133270356 上传时间:2020-05-25 格式:PDF 页数:12 大小:361.18KB
返回 下载 相关 举报
数据仓库解决方案及实施关键过程_第1页
第1页 / 共12页
数据仓库解决方案及实施关键过程_第2页
第2页 / 共12页
数据仓库解决方案及实施关键过程_第3页
第3页 / 共12页
数据仓库解决方案及实施关键过程_第4页
第4页 / 共12页
数据仓库解决方案及实施关键过程_第5页
第5页 / 共12页
点击查看更多>>
资源描述

《数据仓库解决方案及实施关键过程》由会员分享,可在线阅读,更多相关《数据仓库解决方案及实施关键过程(12页珍藏版)》请在金锄头文库上搜索。

1、 数据仓库解决方案数据仓库解决方案及及实施关键过程实施关键过程 商业智能 Business Intelligence 已经进化为包括越来越多的数据分析技 术 无论采用哪种数据分析方法 数据仓库都仍然是利用信息资产的重要基础 本文将关注数据仓库计划 其中包括客户互动过程 业务发现 项目建议以及项 目计划 目标读者 本文是为需要知道如何交付数据仓库解决方案的 IT 专业人士撰写的 本文 假定您已经熟悉系统和数据库的概念 有许多主题未在本文中进行介绍 但它们 同样是交付良好数据仓库解决方案的基础 包括系统和数据库设计 管理 性能 调优等 本文仅仅关注与数据仓库密切相关的问题 商业智能是什么 商业智能

2、 Business Intelligence BI 是对于大量数据的收集和分析 以 便洞悉如何驱动战略性和策略性商业决策 BI 是用于将数据转换成信息的过程 和技术的集合 它包含了种类繁多的技术 包括数据仓库 多维分析或在线分析 处理 OLAP 数据挖掘和数据可视化 以及简单的查询和很多种用于制作报表的 分析工具 这些技术允许业务用户收集 存储 访问和分析数据以提高做出业务 决策的能力 图 1 商业智能是什么 数据仓库是什么 数据仓库 data warehouse 是一个集中式的存储库 repository 包含了综 合详细的数据和概要数据 用于从不易变的历史角度提供客户 供应商 业务过 程和

3、事务的完整视图 另一方面 数据集市 data mart 包含数据仓库中所存储数据的一个子集 这些数据是特定商业社区 部门或用户群所感兴趣的 例如 市场促销 财政或 帐户集合 数据集市是由其用户的功能范围而非数据集市数据库的大小定义的 意识到 这一点十分重要 在结构良好的 BI 系统中 数据仓库充当多个数据集市的一个 源 数据仓库是什么 数据仓库 Data warehousing 是用于管理和交付用于进行决策的完整 及时 正确和可理解信息的过程和工具的设计和实现 它包括使企业可以创建 管理和 维护数据仓库或数据集市的所有活动 数据仓库 Data warehousing 处理对于数 据仓库 dat

4、a warehouse 或数据集市的开发 实现和操作的管理 它包括元数据 管理 数据采集 数据清理 data cleansing 数据集成 存储器管理 数据分 布 数据归档 操作报表制作 分析报表制作 安全性管理 备份和恢复计划等 等 下面的小节提供了对于数据仓库 除了报表制作和分析 的简介 将特别关注 为分析准备数据 该任务通常占大多数数据仓库项目计划的 80 为何选择 IBM DB2 Data Warehouse Edition IBM DB2 DWE 是一个功能强大且完整的商业智能 Business Intelligence 基础设施产品 其中包括了 DB2 集成的 OLAP 高级数据挖

5、掘 数据提取 转 换和装入 Extraction Transformation and Loading ETL 报表制作工具等 DB2 DWE 操纵并提高诸如 DB2 OLAP Server 和来自 IBM 合作伙伴的高级桌面 OLAP 工具的性能 DB2 DWE 是最具成本效益的数据仓库工具之一 据 Market Magic Ltd 在 2004 年的研究报告所称 参阅 参考资料 DB2 DWE 在 5 年多对于数据仓库实 现的 Probable Cost of Ownership PCO 要低于 Oracle 和 NCR Teradata 的 可预见的伸缩能力以及没有限制是商业智能 Bus

6、iness Intelligence 平台 的关键标准 DB2 通过其独特的无共享 shared nothing 架构的实现来满足该需 求 可伸缩性同时适用于大型和小型数据库 可伸缩性和价格都很重要 但是它们无法单独解决构建 BI 平台的挑战 DB2 DWE 通过同样交付关键的分析和挖掘技术完成了该蓝图 DB2 与用于 OLAP 应用 程序的 DB2 Cube Views 在数据库中用于实时数据挖掘的 Intelligent Miner Scoring 以及在深嵌于 DB2 的诸如空间扩展器 spatial extender 和 XML 查 询等新工具完全集成 从而确保无缝的集成和优化的性能

7、客户互动过程 数据仓库解决方案的客户互动过程与以某种方式进行的其他 IT 解决方案 的相似 然而 数据仓库解决方案具有一些重要的不同 包括强大的面向业务的 数据 进程的多层迭代以及更多终端用户的涉及 下图展示了作为数据仓库解决方案提供者的您在一个成功的项目期间与客 户要进行的主要交互 图 2 数据仓库解决方案客户互动过程 解决方案启动 Solution start up 在这个客户互动的初始步骤中 您与 您的客户将决定启动数据仓库项目 并开始建立协议 因为这是所有类型项目的 通用步骤 所以本文中不会详细讨论 业务发现 Business discovery 这是理解当前和期望业务数据分析需求之

8、间差异的过程 它包括收集和记录业务需求 理解客户环境 以及完成差异分析 关于细节 请参阅 下一节 解决方案建议 Solution proposal 基于客户需求 您需要为数据仓库项 目或解决方案提出建议 解决方案计划 Solution planning 本步中 您计划解决方案 并指定所 需的数据仓库基础设施 人员和资源 仓库概念建模 Warehouse conceptual modeling 仓库高级设计包括仓库 架构和实现选择以及用于捕获业务需求中所定义的所有业务主题领域的概念数 据建模 仓库阶段设计 Warehouse phase design 仓库阶段设计包括逻辑和物理数 据建模 用于在

9、更加详细的层次上捕获业务需求 但是仅仅设计当前项目迭代中 的主题领域 该步骤还包括 ETL 过程设计 解决方案实现周期 Solution implementation cycle 数据仓库实现包括 目标存储库和数据集市数据库 以及 ETL 过程实现 解决方案部署 Solution deployment 将新的数据仓库解决方案移至生产 环境中 该数据仓库客户互动过程是基于自底向上 或阶段性 数据仓库实现方法的 在部署数据仓库解决方案之后 可以在新的逻辑和物理数据建模上为与当前业务 需求相关的其他业务主题启动该项目 或者如果有新的业务需求 就重新启动业 务发现阶段 业务发现 业务发现过程包括三个任

10、务 收集和记录业务需求 理解客户的业务环境 以及执行差异分析 这三个任务可以重叠进行 您将总是同时执行这些任务中的 几个 例如 理解业务需求的一部分就是调查客户的业务数据源 这些数据源涉 及了三个业务发现任务 在开始进行业务发现过程之前 解决方案提供者理解每 个任务的目标是很重要的 进行差异分析的目的是理解客户的业务难题和需求 并评估需要用于弥补当 前业务状态及其业务需求之间差异的资源 图 3 业务发现过程 收集并记录业务需求 在执行该任务期间 您应该可以发现并理解客户的业务难题 识别并优先考 虑业务需求 以及关注感兴趣的业务主题领域 在完美的世界中 在客户互动的 开始 您可能拥有完整的数据仓

11、库项目的书写业务需求集 而在现实商业世界中 特别是在中间市场的公司中 初始的业务需求通常是不完整的 最初的联系常常 包含电话 e mail 或非正式的谈话 在向项目投入过多时间和资源之前 遵循 所有初始会议以完整地识别所有的业务需求是十分重要的 收集完整的业务需求并非是一项普通的任务 它需要积极地与您的客户进行 交流 最适合于该工作的是一位有经验的分析员 应具有较强的业务和人员技能 以及关于数据仓库和数据建模的合理知识 确定终端用户的需求 在收集需求的过程中 您收集并记录终端用户的需求 您通常要研究终端用 户是如何卷入业务过程和信息分析活动的 因为这些终端用户并非一定理解数据 仓库的概念 所以

12、您应该询问允许您得以理解特定业务问题的问题 在本阶段中 通常发现终端用户的需求是非正式记录的 且没有用详细的数据结构表示 在收 集终端用户的需求时 您可以采访终端用户 研究现有的文档和报表 以及监控 进行中的信息分析活动 具有业务过程工程和信息分析方面的经验可能十分有帮 助 终端用户需求可以分为 4 个类别 业务对象是商业术语中信息分析目标的高级表示 一个给定的数据仓库项目 可能具有一个或更多业务对象 例如 业务对象可以是 数据仓库必须支持操 作成本的分析 以及产品销售利润的分析 数据仓库项目中的联合业务对象集可以帮助确定项目范围 它们还可以帮助 识别项目中所涉及的信息主题领域 以及识别终端用

13、户所分析的业务过程 通常 是高层次 的度量 业务查询表示终端用户在其日常信息分析活动中询问并尽力解决的查询 假 设和分析问题 就像业务对象一样 业务查询也是用商业术语表示的 您通常将 期望精确规划它们 它们不是用 SQL 术语表示的 业务查询类别中频繁碰到的 一些实例有 存在检查查询 例如 给定产品是否已经卖给某位特定客户 品项 item 比较查询 例如 比较两位客户在过去的 6 个月中的购买价格 或 比较每个商店每周对于一个特定产品的销售品项数目 趋势分析查询 例如 给定产品集在过去 12 个月中的销售增长如何 用于分析比率 等级和集群的查询 例如 按照去年中的美元销售列出最佳 客户 统计分

14、析查询 例如 计算每个产品类别在每个销售区域中的平均品项销 售 数据分析场景是增加您所捕获和分析的需求集实质的较好方式 例如 某些 业务需求是通过分析现有报表查询工作流和解释当前业务数据分析结构而生成 的 现有的数据模型可能是可用的 并且可以用于进一步指定或支持终端用户需 求 您可以通过重新构建和集成源数据模型来收集数据模型 终端用户需求集涉及了许多领域 且许多因素都可以影响其结果 这些因素 可能包括终端用户的业务知识 他们可以如何较好地表达自己 或他们接受采访 多长时间 用户需求也是随时间变化的 某一天正确的内容到了第二天可能不再 有效 您如何知道何时成功地识别了用户的需求呢 没有一个绝对的

15、测试 但是 如果您的需求解决了下列问题 那么您就可能获得了足够的信息开始进行数据建 模 谁是用户所感兴趣的 考虑个人 小组和组织 哪些业务过程和功能是终端用户尽力分析的 用户为何需要数据 何时 哪个时间点 需要记录数据 相关过程在何处 地理上 组织上 发生 您如何可以度量业务过程和功能的性能或状态 确定功能需求 终端用户需求帮助您理解当前业务过程和业务难题 而功能需求则帮助您理 解客户从数据仓库解决方案中所期望的服务比例 所查询的问题基于您的数据仓 库知识 评估以及对于终端用户需求的理解 功能需求信息通常来源于关键业务 合同 业务经理 IT 专业人士以及潜在的终端用户 功能需求帮助您设置总体

16、项目比例和目标 查询下列问题 您需要哪些新的信息分析功能来提高业务 给定您期望基于数据仓库所构建 的报表的详细定义 如果有一个现有的数据分析过程 您碰到了哪些问题 新的数据仓库有多少潜在的用户 他们位于何处 业务报表每隔多久就需要重新进行构建 客户端中哪些人将参与项目 他们的责任是什么 项目预算是什么 如果那些信息可用 项目完成的目标数据是什么 如果有义务特定的聚合度量 那么那些度量的定义是什么 数据仓库需要哪种类型的安全性配置 理解客户的环境 您一开始收集和记录业务需求时就要理解客户的环境 在整个项目过程中 这些任务都将持续进行 在项目的早期阶段理解客户环境是十分重要的 以便避 免误解和不受欢迎的惊喜 许多业务和技术假设都将基于早期的客户环境调查结 果 理解客户的业务环境 难以预测您需要哪些知识来用以完全理解客户业务环境 因为每个业务都是 惟一的 然而 为了取得成功的客户互动 您必定需要知道几件事情 它们包括 但不限于 谁是项目决策人 谁是项目的关键的联络人员 需要解决哪些类型的业务问题 谁是终端用户 终端用户可能不是决策人 但他们提供关于数据仓库可用性 的宝贵信息 您需要哪些特别的

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 教学/培训

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号