TeraData数据库学习笔记

资源描述

《TeraData数据库学习笔记》由会员分享，可在线阅读，更多相关《TeraData数据库学习笔记（9页珍藏版）》请在金锄头文库上搜索。

1、处理节点（node）、用于节点间通信的内部高速互联（Interconnection ）和数据存储介质（一般是磁盘阵列）。每个节点都是SMP结构的单机，节点的物理和逻辑结构如图1所示单个节点就是一个就是一个smp处理单元，一台多 CPU或多核的计算机。硬件包括 CPU内存、用于安装操作系统和应用软件的本地磁盘，与外界交互的网卡及 bynet端口；节点网卡一种是与 IBM MainFrame链接的Channel Adapter，另一种是局域网网卡，通常一个节点只有一种网卡，但有很多块网卡，分别用于不同的连接（比如：备份等）和冗余。多个节点一起构成MPP系统，多个节点之间的内部高速互联时通过

2、BYNET勺硬件实现FTVPrn(?=VPrnr*;书占* I00(3BOHQOQi1 1303.300|IiAMPvorsKShared NothingArchitectureThe Teradata Database virtual processors, or vprocs (which are thePEs andAMPS, share the components of the nodes (memory and cpu). The main component of the shared-nothing architecture is that each AMPmanages it

3、s owndedicated portion of the systems disk space (called thevdisk ) and this space is notshared with other AMPs. Each AMP uses system resources independently of the other AMPsso they can all work in parallel for high system performance overall.Modul-2一个关系数据库是存储在关系数据库管理系统里的相关联的表的集合。“管理系统”这个词，指的是一个关系数

4、据库需要软件来提供象事物处理完整性、安全性和日志的功能。Teradata是一个关系数据库管理系统。关系数据库不用访问路径去查找数据，数据通过数据值来连接。数据连接由一个列与另外一个表中的Module-3:Teradata 的系统主要组成结构分析引擎 Parsing Engine分析引擎（PE）是一个解释SQL请求，接受输入记录，过虑数据的虚拟处理器。完成后的信息通过BYNET 传递给 AMP。包括： session control（会话控制）， parser（解析，包括优化器 optimizer）,dispatcher（调度）分析引擎主要负责：管理单独的会话层（可以到 120个）

5、分析和优化 SQL 请求将优化的计划发送给 AMPASCII/EBCDIC 之间的转化（如果需要的话）发送响应的结果给请求客户BYNETBYNE可以看作是精密复杂的通讯总线。它依靠使用的平台，既可以是软件也可以是硬件。它决定哪个存取模块处理器（AMP将接收信息。BYNETI 负责：AMP PE之间的信息传送广播，点对点和多点通讯合并结果集返回给 PE让 Teradata 的并行处理成为可能BYNE被应用在多节点和单节点系统。存取模块处理器 Access Module Processor （AMP）AMP是一个专门设计用来管理整个数据库的一部分的虚拟处理器。它执行数据库所有的管理功能，例如排序

6、，合计和格式化数据等。AM从PE接收数据，格式化输出行，然后将数据分配到它所控制的存储磁盘单元。AMP1通过分析引擎接收行请求。一个 AMP最多可以控制64个物理磁盘AMP通过BYNET的传送响应分析器和优化器的执行步骤，从它关联的磁盘中选择数据或存储数据。对于一些请求，AMP还需要重新分配一个数据的副本到其他的AMP数据库管理的子系统依赖每一个 AMP数据库的管理：*接收从发报机送来的执行步骤，处理这些执行步骤。它可以做：锁数据库和表建立，修改和删除表的定义插入，删除和修改表中的行从表和数据定义中获取信息收集统计数据，记录会话的访问过程，用户可以被准确地列出表来。响应返回给发报机

7、数据库管理为磁盘上数据的逻辑组织和物理组织提供了一座桥梁作用。数据库管理执行了空间管理的功能，控制了空间的分配和使用。 AMP也能进行数据转化，检查会话层和把Teradata内部使用的8位ASCII 转成请求的数据格式。（这与 PE 将输入数据转成内部的 ASCII 是一个相反的处理过程。）磁盘与AMP相关联的磁盘和磁盘驱动器用来存储数据行。在当前的系统中，它们一般使用磁盘阵列。磁盘矩阵是一个利用专门的控制器来管理和分配数据和奇偶校验的磁盘驱动器结构，以此提供快速存取和数据完整性。每一个 AMP虚拟处理器都必须访问矩阵控制器，这个控制器依次访问物理磁盘。AMP虚拟处理器和一个或多个rank

8、的数据相关联。一个AMP虚拟处理器和相关联的总的磁盘空间被称为VDisk（虚拟存储器）。一个VDisk最多可以有三个rank。所有磁盘RAID技术进行管理，其中有如下的几个方式：_RAID LEVEL 5 多个磁盘的数据和奇偶保护_RAID LEVEL 1 每个磁盘有一个数据复制的物理镜像_RAID LEVEL S类似RAID5用于EMC磁盘矩阵的数据和奇偶保护磁盘矩阵控制器是一个双重可用的矩阵控制器，也就是说除了在相互备份时，两个控制器都可用。每个AMP能支持的最大磁盘空间V2R246GBV2R3/V2R 119GB每个AM虚拟处理器额可以指派给一个虚拟存储器每个虚拟存储器可以拥有119的磁

9、盘空间Teradata存储过程_分析引擎解释SQL命令，将从主机那里得到的数据记录转化成一个AMP信息。_BYNET把这一行分配给相应的 AMP_AMP格式化行并它们写到相关联的磁盘中去。_磁盘保存行的并发访问路径。主机或客户端系统提供数据记录。这些数据记录是未被加工的原始数据，数据库将从这些原始数据中构造。由于Teradata没有预先分配表空间的概念，所以表中的行不仅被随机分配到所有的AMP中去，而且它们被随机存储在AMP相关联的磁盘空间中。Teradat 读取过程从Teradata RDBMS读取数据与存储过程是相反的。一个数据请求传送到分析引擎（PE）, PE将优化这个处理请求使之更加有

10、效，并为相应的 AMP产生执行的任务，使之处理请求的意图。这些任务然后通过 BYNET被发送到AMP上。通常所有的AMP都必须协作以建立结果集，就如将一个数据表中所有的行返回给客户端应用程序。其它时间只有一个或部分的AMP参与。PE将确保只有必要的AMP才被指派任务。一旦AMP被指派任务，它们就读取各自任务所要求的数据行。如果需要的话，AMP将进行数据排序、聚合或格式化等操作。然后这些数据行通过 BYNE返回给请求的PE。之后PE又将收到的返回结果传送到客户端应用程序。_分析引擎发送一个请求读取一行或多行_BYNET确保相应的AMP的可用性_AMP以并行访问方式查找并读取所需要的数据行_B

11、YNET将读取的数据行返回给分析引擎_分析引擎将结果数据返回到请求的客户端应用程序多个AMP上的多个表你也许会认为RDBMS将分配每个表到一个特定的 AMP因此AMP就会把一个表存储在一个磁盘中。然而正相反，当你看到下面的图表，会知道其实并不是那样的。系统会把表中的所有的行分开存储到每一个可用的AMP中。表被分配到所有的AMP中，要经过所有的AMP的行的分配应当均匀，以确保每个 AMP的工作量能够被均匀分配_每个表都有一些行被分配到每个 AMP每个AMP控制一个由几个的物理磁盘组成逻辑存储单元_大型的结构可以有数百个 AMP全表扫描操作，要求并行地存取所有的AMP查看表中所有的行。并行处

12、理才能使存取海量的数据成为可能。让我们看看这三个表： EMPLOYEE DEPARTMEN和 JOBTeradata RDBMS把每个表中的所有行分开存储到所有的 AMP中。AMP把行分开存储到它们的磁盘。每个AMP得到每个表的一部分。表拆分意味着所有的 AMP和它们相关联的磁盘在全表扫描中将被使用，这样就加快了对这些表的请求。在我们的例子里，如果你有四个AMP理论上每个AMP将得到每个表的25%。如果1 # AMP得到EMPLOYEE 表90的行，这被称作粗笨的数据分配。这种粗笨的数据分配将降低系统的响应速度，因为任意一个要求扫描EMPLOYE表所有行的请求在1#AMP完成工作的时候

13、都将会有三个 AMP处于空闲。因此把所有的表均匀分配到所有可用的AMP中会比较好。在后面的章节中你将学会如何控制分配。表中的某些行可以在每个 AMP中找到每个AMP可以有所有表中的行_在理想情况下，每个AMP将保存大致相同数量的数据线性增长和扩展 Linear Growth and Expandability完成一个任务需要的时间总和直接与系统的大小成正比例的特点对于Teradata RDBMS来说是独一无二的。Teradata是一个线性扩展的RDBMS系统构成在需求增长时可以线性扩展Tera 的并行处理 Teradata Parallelism并行处理在Teradata RDBM中是最关键

14、的。事实上系统的每一个部分都存在并行处理。如果没有并行处理，管理海量的数据不只是不可能，而且将是花费昂贵、效率低下的。每个PE能支持120个用户的并行会话。可以是120个不同的用户或单一用户在一个应用程序利用120个会话的处理能力。每个会话可以并行处理多个请求。要是在某一时刻只有一个可用的请求代表一个会话，这个会话本身可以管理 16 个请求的行为和它们相关的答案集。BYNET的是专门为设计的，以使它不会成为系统的瓶颈。因为BYNET在不同的平台被不一样地实现，它总是在每个特定平台的最大吞吐量所需的带宽之内。每个AMP能并行地执行80个任务。AMP在某个时刻从不只对一条请求服务，而是并行

15、地执行多条请求。因为AMP设计用来管理数据库的一部分，它们必须在并行操作中完成即定结果。另外，如果步骤间不存在其它的耗费的话，优化器可以指示 AMP并行地处理某些步骤。这表明一个 AMP可以代表同一个请求并发地执行一个以上的步骤。并行CLI能让客户端应用程序实现并行处理，这对于多会话应用特别有用并且它是通过设定一些环境变量来完成的。它不需要改变应用程序的代码Teradata 功能综述Teradata数据库需要三个不同的软件模块：TPA, PDE和OS可信任的并行应用（ Trusted Parallel Application（TPA））执行虚拟处理器并在 PDE 和操作系统之上运行。Teradata RDBMS被分类看成一个 TPA Teradata RDBMS的组成部件包括：_通道驱动程序_Teradata 网关_AMP_PETeradata数据库并行扩展（PDE parallel database extensions ）:管理和运行虚处理器：PE和AMPs并行数

展开阅读全文

TeraData数据库学习笔记

最新文档