《选择数据仓库的计算架构》由会员分享,可在线阅读,更多相关《选择数据仓库的计算架构(35页珍藏版)》请在金锄头文库上搜索。
1、选择数据仓库的计算架构选择数据仓库的计算架构总述总述项目管理项目管理 (方法论方法论, 维持元数据维持元数据)定义数据仓库的定义数据仓库的概念及术语概念及术语规划一个成功规划一个成功的数据仓库的数据仓库分析用户分析用户查询需求查询需求选择数据仓库选择数据仓库的计算架构的计算架构建模数据仓库建模数据仓库规划仓库存储规划仓库存储ETT(构建数据仓库构建数据仓库)满足业务需求满足业务需求支持最终支持最终用户存取用户存取管理数据仓库管理数据仓库目标目标在完成这一课后在完成这一课后, ,你应该能够做到以下几你应该能够做到以下几点点: : 讨论数据仓库的计算架构的需求讨论数据仓库的计算架构的需求 考虑每个
2、硬件架构的优点考虑每个硬件架构的优点 描述仓库环境需要的数据库服务器的描述仓库环境需要的数据库服务器的特点特点 回顾用于数据仓库环境的并行结构的回顾用于数据仓库环境的并行结构的重要性重要性可测量性可测量性易管理性易管理性可用性可用性可拓展性可拓展性灵活性灵活性完整性完整性架构的要求架构的要求用户用户用户用户预算预算预算预算 业务业务业务业务 技术技术技术技术架构定义策略架构定义策略 获取现有的架构的设计获取现有的架构的设计 获取现有的能力方案获取现有的能力方案 验证现有的界面验证现有的界面 准备能力方案准备能力方案 准备技术的架构准备技术的架构 验证操作系统的需求验证操作系统的需求 开发恢复方
3、案开发恢复方案 开发安全和控制方案开发安全和控制方案 创建架构创建架构 创建技术风险评估创建技术风险评估硬件架构硬件架构包括以下方面包括以下方面 新技术新技术 旧技术旧技术 网络网络硬件体系结构硬件体系结构 健壮的健壮的 可用的可用的 可靠的可靠的 可扩展的可扩展的 可升级的可升级的 可支持的可支持的 可恢复的可恢复的 并行的并行的 VLMVLM(虚拟可加载模块)虚拟可加载模块)虚拟可加载模块)虚拟可加载模块) 6464位位位位 连接的连接的连接的连接的 开放的开放的开放的开放的硬件架构硬件架构 SMPSMP(对称多处理)对称多处理) ClusterCluster(集群)集群) MPPMPP(
4、大规模并行处大规模并行处理)理) NUMANUMA(非一致内存非一致内存访问)访问) 混合网络使用混合网络使用 SMP SMP 和和MPPMPP评估标准评估标准 决定你所需要的平台决定你所需要的平台SMP Clusters NUMA MPP可扩展性可扩展性可扩展性可扩展性成熟度成熟度成熟度成熟度低低低低高高高高低低低低高高高高并行处理并行处理 并行日常操作并行日常操作 共享资源共享资源内存内存内存磁盘磁盘磁盘无,(什么都没有)无,(什么都没有)无,(什么都没有) 松耦合还是紧耦合松耦合还是紧耦合应用软件应用软件应用软件应用软件数据库数据库数据库数据库操作系统操作系统操作系统操作系统硬件硬件硬件
5、硬件做出正确的选择做出正确的选择 不同操作系统的需求不同操作系统的需求 基准基准从供应商处可以买得到的从供应商处可以买得到的从供应商处可以买得到的开发自己的开发自己的开发自己的使用基于事实的查询使用基于事实的查询使用基于事实的查询 重要的可扩展性重要的可扩展性 通过共享存储器通信通过共享存储器通信 磁盘控制器可访问所有中央处理器磁盘控制器可访问所有中央处理器 已成熟的技术已成熟的技术SMPSMP(对称多处理对称多处理)共享磁盘共享磁盘共享磁盘共享磁盘公共路径公共路径公共路径公共路径CPU(中央处理器)中央处理器)CPUCPUCPU共享存储器共享存储器SMPSMP(对称多处理对称多处理) 优点优
6、点: :高并发高并发高并发负荷均衡负荷均衡负荷均衡 中度的可扩展性中度的可扩展性中度的可扩展性易于管理易于管理易于管理 局限局限: :内存内存内存( ( (聚族技术有所改进聚族技术有所改进聚族技术有所改进) ) )带宽带宽带宽CPU CPU CPUCPUShared memory(共用存储器)共用存储器)NUMANUMA(非一致的内存访问)非一致的内存访问)不一致的内存访问不一致的内存访问不一致的内存访问不一致的内存访问Disk(Disk(磁盘磁盘磁盘磁盘) )共享总线共享总线共享总线共享总线DiskDiskShared Memory(共享内存)共享内存)CPUCPUCPUCPUCPUCPU松
7、耦合的共享存储器松耦合的共享存储器Shared Memory(共享内存)共享内存)NUMA NUMA (非一致内存访问)非一致内存访问) 优点优点: :可充分地升级可充分地升级可充分地升级, , ,增量地加磁盘、加增量地加磁盘、加增量地加磁盘、加CPUCPUCPU和和和带宽带宽带宽有比有比有比MPPMPPMPP更好性能更好性能更好性能与与与Oracle Oracle Oracle 服务器匹配服务器匹配服务器匹配 局限局限: :技术较新,验证不充足技术较新,验证不充足技术较新,验证不充足对于简单的系统管理也需要新的工具对于简单的系统管理也需要新的工具对于简单的系统管理也需要新的工具NUMANUM
8、ANUMA比比比SMPSMPSMP价格更高价格更高价格更高Clusters(Clusters(集群集群) )节点节点节点节点 1 1节点节点节点节点2 2节点节点节点节点 3 3公共的高速总线公共的高速总线公共的高速总线公共的高速总线共享磁盘共享磁盘共享磁盘共享磁盘公共的高速总线公共的高速总线公共的高速总线公共的高速总线共享内存共享内存CPUCPUCPU共享内存共享内存CPUCPUCPU共享内存共享内存CPUCPUCPUClusters(Clusters(集群集群) ) 共享磁盘,松耦合共享磁盘,松耦合 专用内存专用内存 高速总线高速总线 共享资源共享资源 SMP SMP 节点节点 优点优点:
9、 :高可用性高可用性高可用性单一的数据库概念单一的数据库概念单一的数据库概念, , , 逐步地增长逐步地增长逐步地增长 局限局限: :可扩展性可扩展性可扩展性, , , 需要节点间同步需要节点间同步需要节点间同步操作此系统的费用操作此系统的费用操作此系统的费用Shared memoryCPU CPU CPUShared memoryCPU CPU CPUShared memoryCPU CPU CPUMPP(MPP(大规模并行处理系统大规模并行处理系统) )CPUMemoryCPUMemoryCPUMemoryMemory(内存)内存)CPU(中央处理器)中央处理器) DiskDisk(磁盘)
10、磁盘)磁盘)磁盘)DiskDiskDiskDiskDiskDiskMPPMPP(大规模并行处理系统)大规模并行处理系统) 无架构共享无架构共享 多节点多节点 快速访问快速访问 各节点独占内存各节点独占内存 各节点低成本各节点低成本 可升级的可升级的 n-n-立方体的构造立方体的构造MPP MPP 的优点的优点 无限制的增量式增长无限制的增量式增长 优越的可升级性优越的可升级性 快速访问快速访问 各节点低成本各节点低成本 有益于有益于 DSSDSSCPUMemoryCPUMemoryCPUMemoryMemoryCPUDiskDiskDiskDiskDiskDiskDiskDiskMPP MPP
11、 的局限的局限 严格的分割严格的分割 高速缓存的一致性高速缓存的一致性 受限制的磁盘访问受限制的磁盘访问 各节点的高内存成本各节点的高内存成本 高管理负担高管理负担 谨慎的数据安置谨慎的数据安置CPUMemoryCPUMemoryCPUMemoryMemoryCPUDiskDiskDiskDiskDiskDiskDiskDiskWindows NTWindows NT基于客户基于客户- -服务器模型的体系架构服务器模型的体系架构 优点优点: :包括内在的网络服务包括内在的网络服务包括内在的网络服务可扩展性可扩展性可扩展性 易于管理和控制易于管理和控制易于管理和控制 局限局限: :不十分安全不十
12、分安全不十分安全不能执行远程的程序不能执行远程的程序不能执行远程的程序在四个处理器之外缺乏线性可扩展性在四个处理器之外缺乏线性可扩展性在四个处理器之外缺乏线性可扩展性用于应用的地址空间限制于用于应用的地址空间限制于用于应用的地址空间限制于2G2G2G字节字节字节多层的体系架构多层的体系架构 层次的结构层次的结构: :基于模块基于模块基于模块逻辑分离逻辑分离逻辑分离 分布式结构分布式结构: :两层两层两层三层三层三层四层四层四层( ( (或更多或更多或更多) ) )中间件中间件用于集成的技术用于集成的技术网关网关网关网关数据库服务器的需求数据库服务器的需求 健壮的健壮的 可用的可用的 可靠的可靠
13、的 可扩展的可扩展的 可升级的可升级的 可支持的可支持的 可恢复的可恢复的 并行的并行的并行并行 数据库数据库 查询查询 加载加载 索引索引 排序排序 备份备份 恢复恢复更进一步的考虑更进一步的考虑 最优化的策略最优化的策略 分割的策略分割的策略 概要的策略概要的策略 索引技术索引技术 硬件和软件的可扩展性硬件和软件的可扩展性 可用性可用性 管理管理服务器环境服务器环境操作型服务器操作型服务器仓库服务器仓库服务器数据集市服务器数据集市服务器 开放的数据库开放的数据库开放的数据库开放的数据库 管理系统管理系统管理系统管理系统 网络网络网络网络, , 关系型关系型关系型关系型, , 分等级的分等级
14、的分等级的分等级的 大型机大型机大型机大型机单独拥有的单独拥有的单独拥有的单独拥有的 DBMSDBMS Oracle, IMS, DB2, Oracle, IMS, DB2, VSAM, VSAM, RdbRdb, Non, Non Stop SQL, RMS Stop SQL, RMS 开放的数据库开放的数据库开放的数据库开放的数据库 管理系统管理系统管理系统管理系统 关系型关系型关系型关系型 普通目的和仓库特征的普通目的和仓库特征的普通目的和仓库特征的普通目的和仓库特征的 DBMSDBMS Oracle, Informix, Oracle, Informix, Sybase, IBM DB
15、2, Sybase, IBM DB2, NCR/AT&T NCR/AT&T TeradataTeradata Red Brick Red Brick 开放的数据库开放的数据库开放的数据库开放的数据库 管理系统管理系统管理系统管理系统 关系型,多维关系型,多维关系型,多维关系型,多维 一般目的和仓库特征一般目的和仓库特征一般目的和仓库特征一般目的和仓库特征 的的的的DBMSDBMS Oracle, Oracle Oracle, Oracle Express, Arbor Express, Arbor EssbaseEssbase, MS SQL, MS SQL Server, NT Server
16、, NT并行处理并行处理一个大任务分解成多个小任务一个大任务分解成多个小任务: : 并行执行并行执行 一个或更多处理器一个或更多处理器Processor 1Processor 1共用时间共用时间共用时间共用时间非并行非并行非并行非并行Processor 2Processor 2Processor 1Processor 1Processor 4Processor 4Processor 3Processor 3并行并行并行并行并行数据库并行数据库 提高速度提高速度 改进的可扩展性改进的可扩展性 增加的性能增加的性能增加的性能增加的性能 可用性可用性可用性可用性 适应性适应性适应性适应性 更多用户更
17、多用户更多用户更多用户处理器处理器处理器处理器2 2处理器处理器处理器处理器1 1处理器处理器处理器处理器4 4处理器处理器处理器处理器3 3并行并行并行并行并行查询并行查询在服务器的过程之中在服务器的过程之中SQLSQL代码被分离代码被分离查询查询子查询子查询子查询子查询子查询子查询并行加载并行加载多路多路SQL SQL 处理加速载入量处理加速载入量Feb 98Feb 98Mar 98Mar 98命令表命令表命令表命令表Jan 98Jan 98并行处理并行处理 索引索引 排序排序 备份备份 恢复恢复 概要概要减少创建的时间减少创建的时间减少创建的时间减少创建的时间在高速缓冲存储器里有效地分配
18、内存在高速缓冲存储器里有效地分配内存在高速缓冲存储器里有效地分配内存在高速缓冲存储器里有效地分配内存从任意的节点同时执行从任意的节点同时执行从任意的节点同时执行从任意的节点同时执行脱机脱机脱机脱机联机联机联机联机从重做日志同时执行恢复从重做日志同时执行恢复从重做日志同时执行恢复从重做日志同时执行恢复使用使用使用使用 CREATE TABLE AS SELECTCREATE TABLE AS SELECT语句语句语句语句总总 结结本节讨论了以下内容本节讨论了以下内容: : 概述了数据仓库的基本架构需求概述了数据仓库的基本架构需求 分析了所有不同硬件架构的突出优点及分析了所有不同硬件架构的突出优点及局限性局限性实践实践8-1 8-1 综观综观实践包括以下课题实践包括以下课题: : 定义定义, , 陈述陈述SMPSMP, NUMANUMA, clustersclusters和和 MPP MPP 的优点和局限性的优点和局限性 定义并行性及解释它对数据仓库的重定义并行性及解释它对数据仓库的重要性要性