数据仓库系统设计及开发

上传人:第*** 文档编号:58421112 上传时间:2018-10-29 格式:PPT 页数:110 大小:6.46MB
返回 下载 相关 举报
数据仓库系统设计及开发_第1页
第1页 / 共110页
数据仓库系统设计及开发_第2页
第2页 / 共110页
数据仓库系统设计及开发_第3页
第3页 / 共110页
数据仓库系统设计及开发_第4页
第4页 / 共110页
数据仓库系统设计及开发_第5页
第5页 / 共110页
点击查看更多>>
资源描述

《数据仓库系统设计及开发》由会员分享,可在线阅读,更多相关《数据仓库系统设计及开发(110页珍藏版)》请在金锄头文库上搜索。

1、2018年10月29日,1,数据仓库的设计及开发,2018年10月29日,2,2.,3.,数据仓库设计数据建模,最佳实践构建高性能的数据仓库,数据仓库设计ETL设计,数据仓库设计建模过程,日程安排,数据仓库设计界面设计,数据仓库的开发应用过程,2018年10月29日,3,3.灵活性能够很好的分离出底层技术的实现和上层业务的展现 当上层业务发生变化时,通过数据模型, 底层技术实现可以较为轻松的完成业务的变动,从而达到整个数据仓库系统的灵活性,1.业务核理改善业务流程能够全面了解业务系统的业务架构图和整个业务运行情况 2) 能够将业务按照特定的规律进行分门别类和程序化,2.解决信息孤岛及数据差异1

2、) 建立全方法的数据视角; 2) 保证整个企业的数据的一致性; 3) 消除各个部门之间的信息孤岛;,4.加快数据仓库系统的建设开发人员和业务人员能够很容易达成系统建设范围的边界的界定 能够使整个项目组明确当前的任务,加快整个系统建设的速度,为什么需要数据模型,2018年10月29日,4,数据仓库建模人员所需的技能和能力,分析能力 见树又见林 模拟 论证 学习能力 抽象 综合 交流能力 组交互 演示 调查访谈 原型设计能力 企业体系架构,2018年10月29日,5,数据仓库设计建模的要点和原则,建模原则 选择创建什么模型对如何动手解决问题和如何解决方案有深远影响 每一种模型可以在不同的精度级别上

3、表示 最好的模型是与现实相联系 单个模型不充分,需要一组模型去处理建模的要点 正确认识建模方法论,2018年10月29日,6,利用图形来建立数据模型,图形具有直观性、简单性以及可理解性等优点 图形能自然地表达客观世界 理解图中路径探索,2018年10月29日,7,什么是数据模型,业务建模,生成业务模型,主要解决业务层面的分解和程序化。 领域建模,生成概念模型,主要是对业务模型进行抽象处理,生成领域概念模型。 逻辑建模,生成逻辑模型,主要是将领域模型的概念实体以及实体之间的关系进行数据库层次的逻辑化。 物理建模,生成物理模型,主要解决,逻辑模型针对不同关系型数据库的物理化以及性能等一些具体的技术

4、问题。,2018年10月29日,8,思考,需求建模与业务建模 需求建模与业务建模谁先谁后? 软件开发过程是否应该是:业务调研,业务建模(业务分析),(业务模型分析)需求调研(这时,已经有一部分需求可从业务模型中获得), 需求建模,需求分析,2018年10月29日,9,业务建模组织结构分析,组织结构,用户及权限的分析,客户组织结构的分析 公司组织机构 区域位置 集团/省/地市用户的分析 用户 组 角色权限的分析 功能权限分析 数据权限分析,2018年10月29日,10,2018年10月29日星期一,11,例:三大运营商的组织架构调整,2018年10月29日,12,业务建模业务流程分析,什么是业务

5、流程,2018年10月29日,13,业务流程分析的内容,(1)原有流程的分析。 (2)业务流程的优化。 (3)确定新的业务流程 (4)新系统的人机界面。,2018年10月29日,14,业务流程分析的步骤,1.系统环境调查 2. 组织机构和职责的调查 3.功能体系的调查与分析 4.管理业务流程的调查与分析,2018年10月29日,15,案例学习: 新业务客户服务业务流程新业务查询流程,2018年10月29日,16,业务流程可以代替业务建模吗,在业务流程的背后,有一个更加根本的因素商业需求。商业需求才是真正的业务模型,业务流程只是一种实现手段而已。 例:新用户入网业务流程: 1:首先把SIM卡和号

6、码在交换网络上做对应关系的注册; 2:市场部把SIM卡存入一定的金额,发给销售商,收取销售商的货款; 3:销售商把卡卖给用户,用户填写入网合同,SIM装入手机可以立即通话; 4:销售商把入网合同交给市场部,市场部资料录入人员将用户的资料录入系统; 5:计费系统按照用户选择的资费对话单进行计费; 6、市场部按照用户的消费情况给销售商计算佣金和返利。思考:真正的业务模型(需求)是什么?,2018年10月29日,17,从业务流程中提取概念和逻辑模型,心得体会: 看到背后的商业需求,你会发现模型原来非常稳定 不需要急于知道所有的细节性的需求,只要了解比较重要的20的需求,2018年10月29日,18,

7、2018年10月29日,19,数据仓库数据模型- 星型模型与雪花模型,2018年10月29日,20,数据仓库建模的原则,2018年10月29日,21,数据仓库建模的三个阶段,概念模型设计(Concept Data Modeling): 这一阶段之前的首要工作是通过需求分析,明确需求所涵盖的业务范围。然后再对需求范围内的业务及其间关系进行高度概括性的描述,把密切相关业务对象进行归类,即划分主题域。 概念模型的设计是为逻辑模型的设计做准备,它没有统一的标准,主要根据设计者的经验。 逻辑模型设计(Logical Data Modeling): 分别对概念模型的各个主题域进行细化,根据业务定义、分类和

8、规则,定义其中的实体并描述实体之间的关系,并产生实体关系图(ERD),然后遵照规范化思想在实体关系的基础上明确各个实体的属性。实体产生于中国移动开展的业务、服务及其涉及的对象(如客户、帐户、员工、机构、资源),实体间的对应、约束关系则来自于各业务过程中的规则。可以说,这一阶段面对的是业务。 物理模型设计(Physical Data Modeling): 物理模型设计主要依据逻辑模型针对具体的分析需求和物理平台采取相应的优化策略。此时会在一定程度上增加数据冗余或者隐藏实体之间的关系或者进行实体的合并和拆分,目的是提高数据分析的速度,适应具体数据库的容量、性能等限制。可以说,这一阶段面对的是具体软

9、硬件平台和性能要求。 一旦逻辑模型到位,物理模型就有了可参照的依据,开发工作内容也同时得到明确。 物理模型设计一般在架构设计阶段,2018年10月29日,22,数据仓库系统所采用的建模流程,概念模型为逻辑模型的设计作准备,没有统一标准,主要根据设计者经验 逻辑模型对概念模型的各个主题域进行细化,根据业务定义、分类和规则,定义其中的实体并描述实体之间的关系,并产生实体关系图(ERD) 一旦逻辑模型到位,物理模型就有了可参照的依据,开发工作内容也同时得到明确,2018年10月29日,23,数据仓库概念模型 主题域的设计,DW主题的划分必须是基于需求的主题划分,而不仅仅是基于已有查询和报表数据的主题

10、划分 DW主题是通过对业务人员的访谈,充分了解业务流程和信息使用需求为主要根源的 DW主题的设计必须能够满足业务人员的内在的分析需求 DW主题设计的过程中,业务环节点分析是关键 DW细化分析主题,解决指标的歧义问题,为模型设计、数据提取、数据展现等多个方面奠定基础,2018年10月29日,24,数据仓库的数据模型,系统记录域(System of Record):这部分是主要的数据仓库业务数据存储区,数据模型在这里保证了数据的一致性。 内部管理域(Housekeeping):这部分主要存储数据仓库用于内部管理的元数据,数据模型在这里能够帮助进行统一的元数据的管理。 汇总域(Summary of

11、Area):这部分数据来自于系统记录域的汇总,数据模型在这里保证了分析域的主题分析的性能,满足了部分的报表查询。 分析域(Analysis Area):这部分数据模型主要用于各个业务部分的具体的主题业务分析。这部分数据模型可以单独存储在相应的数据集市中。 反馈域(Feedback Area):可选项,这部分数据模型主要用于相应前端的反馈数据,数据仓库可以视业务的需要设置这一区域。,2018年10月29日,25,数据模型的技术功能结构划分,分段存储区(Staging Area) 是为了保证数据移动的顺利进行而开设的阶段性数据存储空间,它是业务系统原始数据进入数据仓库前的缓存区。 基础数据仓库 根

12、据业务需求的不同,基础数据仓库的组织形式以三范式模型为主,在有的系统中也可能采用星型或雪花模型。 数据集市(Data Mart) 数据集市中的数据通常由基础数据仓库的详细数据聚合而来,根据数据聚合程度的不同包含轻度聚合、中度聚合和高度聚合三种不同的层次。汇总的方式将依据数据量的大小和使用频度综合考虑,2018年10月29日,26,数据仓库的模型关系模型,2018年10月29日,27,数据仓库的模型星型模型,通过数据预连接和建立有选择的数据冗余,设计者为访问和分析过程大大简化了数据。 星型连接应用于设计数据仓库中很大的实体,而数据模型则应用于数据仓库中较小的实体。,2018年10月29日,28,

13、数据仓库的模型雪花模型,许多维度存在着比较复杂的结构,它们有的还具有多层的层次结构。因此,很难将这样的维表只采用一个关系表的形式表达出来,必须将这些维表规范成有多个外键关联的关系表,2018年10月29日,29,星型模型 VS 雪花模型,2018年10月29日,30,宽表,横表与纵表 处理方便性与业务支撑灵活性的差异 宽表 在横表的基础上拓展,强化处理方便性 开放给业务人员使用,直接解决业务问题 单条记录包括用户基本信息、产品选择和使用量、费用信息,2018年10月29日,31,数据仓库建模方法范式建模法,优点: 从关系型数据库的角度出发,结合了业务系统的数据模型,能够比较方便的实现数据仓库的

14、建模 缺点: 在某些时候反而限制了整个数据仓库模型的灵活性,性能等,2018年10月29日,32,数据仓库建模方法维度建模法,优点:维度建模非常直观,紧紧围绕着业务模型,可以直观的反映出业务模型中的业务问题 缺点:如果只是依靠单纯的维度建模,不能保证数据来源的一致性和准确性,2018年10月29日,33,数据仓库建模方法实体建模法,优点:能够很轻松的实现业务模型的划分,因此,在业务建模阶段和领域概念建模阶段,实体建模法有着广泛的应用 缺点:不太适用于物理建模,2018年10月29日,34,数据仓库建模的十大戒律,1) 必须回答紧迫的问题; 2) 必须有正确的事实表; 3) 将有正确的维表,描述

15、必须按最终用户的业务术语表达; 4) 必须理解数据仓库所影响的公司过程或影响数据仓库的公司过程; 5) 对于事实表,应该有正确的“粒度”; 6) 根据需要存储正确长度的公司历史数据; 7) 以一种对于公司有意义的方式来集成所有必要的数据; 8) 创建必要的总结表; 9) 创建必要的索引; 10) 能够加载数据仓库数据库并使它以一种适宜的方式可用。,2018年10月29日,35,数据仓库缓慢变化维的一个案例,一个案例 在一个零售业数据仓库中,事实表保存着各销售人员的销售记录,某天一个销售人员从北京分公司调到上海分公司了,那么如何来保存这个变化呢?也就是说销售人员维度要怎么恰当的处理这一变化。 如

16、果我们要统计北京地区或上海地区的总销售情况的时候,这个销售人员的销售记录应该算在北京还是算在上海? 当然是调离前的算在北京,调离后的算在上海,但是如标记这个销售人员所属区域?这里就需要处理一下这个维度的数据,即我们缓慢变化维需要做的事情。,2018年10月29日,36,数据仓库缓慢变化维的解决方案,新数据覆盖旧数据 保存多条记录,并添加字段加以区分添加记录的生效日期和失效日期来标识新旧数据 不同字段保存不同值 ,这种方法用不同的字段保存变化痕迹.但是这种方法不能象第二种方法一样保存所有变化记录,它只能保存两次变化记录.适用于变化不超过两次的维度。 另外建表保存历史记录,而维度只保存当前数据 混合模式,2018年10月29日,37,数据仓库建模_案例,2018年10月29日,38,案例:怎样构建数据仓库模型,确定主题域 确定主题域及各主题域之间的关系 确定主题域的业务数据 确定业务数据中的业务实体 确定业务实体之间的关系 确定物理模型,2018年10月29日,39,确定主题域及各主题域之间的关系,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 调研报告

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号