数据仓库实践系列课程(1)——数据仓库基本概念.

资源描述

《数据仓库实践系列课程(1)——数据仓库基本概念.》由会员分享，可在线阅读，更多相关《数据仓库实践系列课程(1)——数据仓库基本概念.（80页珍藏版）》请在金锄头文库上搜索。

1、数据仓库实践系列课程（1）数据仓库基本概念文思海辉 Pactera. Confidential. All Rights Reserved.2 数据仓库概念数据模型介绍数据管理介绍数据仓库项目实施数据仓库出现的背景需求的变化业务系统的建设逐渐完善分析类需求不断增加不断增加的信息孤岛导致数据集成问题不断增加技术发展状况关系数据库技术日趋成熟报表和复杂查询处理起来非常困难各个系统之间数据不一致数据仓库与OLTP OLTP系统(生产系统) 面向应用事务驱动的实时性高数据检索量相对少只存当前数据数据仓库系统(决策系统) 面向主题分析和决策实时性要求不是特

2、别高数据检索量大存储大量的历史数据和当前数据分析型系统与操作型系统之间的区别操作型数据分析型数据细节的细节的，综合的，或提炼的在存取瞬间是准确的代表过去的数据可更新不更新操作需求事先可知道操作需求事先不知道对性能要求高对性能要求相对宽松一个时刻操作一单元一个时刻操作一集合事务驱动分析驱动面向应用面向分析一次操作数据量小一次操作数据量大支持日常操作支持管理需求数据仓库建设的分歧数据仓库建设的分歧 Bill InmonKimball 1991年，提出了企业级数据仓库企业级数据仓库建设遭受大面积失败 Kimball出版了The DataWare

3、house Toolkit 数据集市建设在初期取得了成功多个数据集市之间的复杂的ETL/数据不一致争论与混乱期（1996-1997） EDWODSData Mart 走向融合（1998-2001）提出了企业信息工厂（Corporate Information Factory）的架构，融合了 EDW/ODS/Data Mart Kimball也提出了数据仓库的扩展架构，把 EDW/ODS/Data Mart结合在了一起数据仓库理论的形成数据仓库的四个特征数据仓库是面向主题的（Subject-Oriented）集成的（Integrated）随时间不断变化（Time-variant）

4、不可更新的（Nonvolatile）数据仓库之父：Bill Inmon 数据仓库面向主题与面向应用 OLTP应用是面向应用进行数据组织的分析应用面向主题进行组织主题一个抽象的概念在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。例如：对于一个保险公司来说 OLTP数据库所面向的应用可能是汽车保险、健康保险、人寿保险与意外伤亡保险数据仓库所面向的主题域可能是顾客、保险单、保险费与索赔。目前主流的数据仓库大都是采用关系数据库技术来实现的数据仓库的数据最终也会用关系模型表现。因此要把握主题和面向主题的概念，需要将它们提高到一个更高的抽象层次上来理解，也就是

5、要特别强调概念的逻辑意义。数据集成数据集成的内务数据清洗 -按照数据质量管理的要求进行数据的清洗数据转换 -按照源系统与数据仓库中模型之间的差异进行转换数据整合 -不同源系统的数据在数据仓库中可能会进入到相同的模型中为什么要进行数据集成？源系统的多样性数据质量的要求模型的差异不可更新与不断变化不可更新不会修改细节数据（源系统传来的详细数据） -数据转换：通常需要保留原值不断变化不断增加新的数据删除旧的数据新的汇总周期带来的新的汇总数据数据集市数据集市(Data Mart)是部门级决策支持的数据集合。数据集市数据仓库数据访问与分析 (企业

6、级) (部门级) 数据集市数据集市建设的几种体系架构数据仓库逻辑数据集市物理数据集市依赖数据集市独立数据集市 14 Pactera. Confidential. All Rights Reserved. 数据集市的缺点多个数据模型多个传输转换程序数据不一致系统复杂，难于维护生产系统独立数据集市市场部. 财务部储蓄系统信用卡系统 MedicaidWelfareMental HealthChild Services 分布式(数据集市) 集中式(数据仓库) MedicaidWelfareMental HealthChild Services Employees Clien

7、t Services Program Effectiveness District Offices Costs Eligibility “ “垂直垂直” ” “ “水平水平” ” 数据仓库与数据集市的业务分析能力 DW/DM的流派之争 - Bill Inmon与Ralph Kimball ADW(Active Data Warehouse) n=1,072 BI已经深入到企业的各个部门后台管理人员前台业务人员问: BI在您的企业中的哪些领域被用来制定关键的决策，请选择所有适用的选项。 Source: IDC White Paper, “Taming Information Chaos”

8、, Nov 2007 BI已经不仅仅是办公室的管理人员的专利主要发现在美国企业中，监管和审计要求 (SarbOx)是驱动BI应用的重要原因这是与其它地区非常大的区别。 IDC 观点财务分析通常是BI应用的主要推动力，但这一应用仍然只有不到50%的企业使用。 n=1,072 BI在企业内部的用户群 Q:在您的企业中，哪些用户正在通过BI的解决方案在获取信息。请选择所有适用的答案 Source: IDC White Paper, “Taming Information Chaos”, Nov 2007 BI深入企业的各个层面主要发现一线业务人员也急需决策支持。BI 从后端角

9、落里转移到企业的中心。 BI解决方案不仅向内部人员提供访问，而且向外部用户提供访问。领导企业中，外部用户可以访问BI的比例是平均值的两倍。 IDC观点业务分析解决方案可以帮助企业中的各类用户群。 BI解决方案不仅帮助业务分析人员和高层管理者。支持外部用户可以加强外部用户对企业的依赖，从而增强用户关系。内部外部什么是并行处理并行处理的概念在某一个数据库系统中能同时采用多个硬件设备完成某一任务的方法。多个硬件设备可同时工作于该任务的不同方面。并行处理的主要目的是节省大型和复杂问题的解决时间。并行处理与并发处理并发是指在某一个数据库系统中允许多个任务的同时执行，任

10、务与任务之间没有联系。并行是指将一个任务划分为多个子任务，这些子任务同时执行。在所有子任务处理完成后，将它们的结果进行合并，就得到该任务的最终处理结果 OLTP与OLAP对系统的不同要求 OLTP操作使用特点 -请求短小而密集技术要求 -能够将用户的请求进行均衡分担 -并发操作。 OLAP操作使用特点 -请求庞大而稀疏 -每一个查询和统计都很复杂，但访问的频率并不是很高技术要求 -能够将所有的硬件资源调动起来为这一个复杂的查询请求服务 -并行处理结论并行处理技术在数据仓库中比OLTP系统更加重要。并行技术的几种类型 SMP Symmetric Multi-Processor

11、对称多处理器 NUMA Non-Uniform Memory Access 非一致存储访问结构 MPP Massive Parallel Processing 海量并行处理结构 SMP CPU 服务器中多个CPU对称工作，无主次或从属关系。 CPU共享相同的物理内存，每个 CPU访问内存中的任何地址所需时间是相同的。也被称为一致存储器访问结构(UMA：Uniform Memory Access)。特征共享：系统中所有资源(CPU、内存、I/O等)都是共享的。冲突：每个CPU必须通过相同的内存总线访问相同的内存资源，因此随着CPU数量的增加，内存访问冲突将迅速增加。 SMP的性能扩

12、展实验证明，SMP服务器CPU利用率最好的情况是2至4个CPU。 NUMA NUMA的特征 CPU 具有多个CPU模块每个CPU模块由多个CPU(如4个)组成每个CPU模块具有独立的本地内存、I/O槽口每个CPU模块之间可以通过互联模块进行连接和信息交互特征可以较好地解决原来SMP系统的扩展问题，在一个物理服务器内可以支持上百个CPU 访问本地内存的速度将远远高于访问远地内存当CPU数量增加时，系统性能无法线性增加 MPP 系统架构由多个SMP服务器通过一定的节点互联网络进行连接协同工作，完成相同的任务从用户的角度来看是一个服务器系统基本特征由多个SMP服务器(每个S

13、MP服务器称节点)通过节点互联网络连接而成每个节点只访问自己的本地资源(内存、存储等) Share Nothing结构扩展能力最好与NUMA的区别不存在异地内存访问的问题节点之间的信息交互是通过节点互联网络实现的这个过程一般称为数据重分配(Data Redistribution) 数据仓库应用的特征数据仓库大量复杂的数据处理要求很高的I/O处理能力存储系统提供足够的I/O带宽与之匹配 OLTP 每个交易所涉及的数据不多要求系统具有很高的事务处理能力能够在单位时间里处理尽量多的交易 NUMA架构更适用于OLTP事务处理环境大量复杂的数据处理必然导致大量的数据交互，将使C

14、PU的利用率大大降低体系架构决定了可扩展能力 Large SMP/NUMA 设计来做OLAP应用对于小数据量的应用效率很高当CPU数量增加以及数据量增加的时候，由于资源竞争导致效率急剧下降。 Memory Cache Cache CPU(s) Memory Cache CPU(s) CPU(s) Memory SPEED LIMIT 55 Disk Storage Disk Storage CPU(s) CPU(s) CPU(s) CPU(s) CPU(s) CPU(s) CPU(s) CPU(s) Cache Cache Cache Cache Cache Cache Cache

15、Cache Memory Memory Memory Memory Memory Memory Memory Memory Disk Storage Disk Storage Disk Storage Disk Storage Disk Storage Disk Storage Disk Storage Disk Storage 交换网络通过互联网络访问共享内存 CPU通过互联网络访问共享磁盘 Shared-Nothing MPP 斜率为1的线性扩展被优化用作非常大量的磁盘读写对数据仓库应用来讲，效率非常高线性扩展斜率为1 NUMA 衰减20% SMP 衰减10% CPU个数系统性能 11 10 9 8 7 6 5 4 3 2 1 12345678910 有时候这个也被称作线性扩展共享资源导致CPU效率

展开阅读全文