GreenPlum 数据库集群安装说明及使用手册v1.0

上传人:ni****g 文档编号:472761578 上传时间:2024-01-29 格式:DOCX 页数:46 大小:995.25KB
返回 下载 相关 举报
GreenPlum 数据库集群安装说明及使用手册v1.0_第1页
第1页 / 共46页
GreenPlum 数据库集群安装说明及使用手册v1.0_第2页
第2页 / 共46页
GreenPlum 数据库集群安装说明及使用手册v1.0_第3页
第3页 / 共46页
GreenPlum 数据库集群安装说明及使用手册v1.0_第4页
第4页 / 共46页
GreenPlum 数据库集群安装说明及使用手册v1.0_第5页
第5页 / 共46页
点击查看更多>>
资源描述

《GreenPlum 数据库集群安装说明及使用手册v1.0》由会员分享,可在线阅读,更多相关《GreenPlum 数据库集群安装说明及使用手册v1.0(46页珍藏版)》请在金锄头文库上搜索。

1、GreenPlum数据库集群安装说明及使用手册开心十二月总结*年*月*日目 录1体系结构介绍42安装102.1安装102.1.1安装准备102.1.2安装gp-db112.1.3配置通讯132.1.4建立数据存储池172.1.5同步系统时间172.1.6验证安装是否成功172.1.7初始化172.1.8数据库的启停182.2Master双机热备192.3Segment节点互备203GP数据库的使用223.1pgAdminIII工具223.1.1安装和第一次使用pgAdminIII223.1.2主窗体233.1.3导航菜单233.1.4工具栏介绍243.1.5数据库与表的创建253.1.6使用p

2、gAdminIII备份数据库253.2JDBC配置263.3GP数据库两个重要概念273.3.1什么是Schema273.3.2数据分布存储283.4GP的SQL语法283.4.1数据加载283.4.2SQL并行查询313.4.3聚合函数313.4.4索引313.4.5分区323.4.6函数344维护数据库384.1数据库启动 gpstart384.2数据库停止 gpstop404.3查看实例配置和状态404.4查看数据库运行状态 gpstate404.5查看用户会话和提交的查询等信息424.6查看数据库、表占用空间424.7查看数据分布情况424.8实例恢复 gprecoverseg424.

3、9查看锁信息434.10数据库的备份与恢复435调优、排错436附件436.1DBA常用命令437Q&A447.1不支持触发器447.2更新操作中的若干问题441 体系结构介绍 Greenplum数据库产品下一代数据仓库引擎和分析方法Greenplum公司是企业数据云计算解决方案的创始人,为客户提供灵活的数据商业智能和分析方法。能够以极低的成本代价,提供业界领先的计算性能。客户遍及美国知名企业:Nasdaq、NYSE、Ebay、Fox Interactive Media等。Greenplum公司的Greenplum数据库产品是用于建造下一代数据仓库和巨大规模分析系统的软件解决方案。支持SQL和

4、MapReduce并行处理,更适合管理TB级PB级的海量数据,并以极低的成本代价提供了业界领先的计算性能。使用独有的sharing-nothing MPP架构,服务器的集群工作起来,就像是一个独立的超级计算机!优化了BI和分析方法,自动化分区数据和并行查询,比传统数据库执行速度提高10倍100倍!Greenplum数据库的特色: 大规模地并行分析处理能力Greenplum数据库可以跨越1001000颗CPU,实现统一的并行操作引擎,让处理过程尽可能地靠近数据。Greenplum是业界最快的和最普及的高端数据仓库解决方案!用传统方式需花费数天才能完成的复杂查询,现在使用Greenplum只需要几

5、分钟完成! 核心的MPP架构Greenplum数据库提供数据和查询的自动化并行:数据被自动分区跨越集群中的所有节点;查询以高度协作的方式,在集群的所有节点上执行。 高速PB级数据装载利用独有的MPP Scatter/Gather Streaming技术,实现高速的数据装载。每增加1个节点,每小时装载吞吐量提高4TB! 数据库内部压缩利用业界领先的压缩技术提高性能和降低存储空间。在有效较少1/31/10空间的同时,相应地提高了I/O性能。 多级容错能力Greenplum数据库利用多级冗余技术,在硬件或软件故障时,保障操作可以继续执行。 在线系统扩展为提高存储容量、处理性能,增加新的服务器到集群中

6、,扩展的操作在后台完成,数据库可以继续保持正常工作状态不受影响。处理性能和存储容量,随服务器的个数增加成正比显著提高! 自有的MapReduce技术MapReduce是Google和Yahoo的大规模数据分析方法。Greenplum使用独有的并行引擎执行MapReduce。Greenplum数据库架构原理解密:Greenplum数据库通过分布负载到多个服务器主机,实现操作存储和处理大规模的数据。数据库实际上由1个Master服务器和若干个独立的Segment服务器组成,一起协调工作,每个服务器都是独立的PostgreSQL数据库。如图1所示,Master服务器是数据库的入口,验证客户端,处理输

7、入的SQL,分布工作到若干Segment服务器,统一协调各个Segment返回的结果,汇总最终结果返回客户端。Master不存储任何用户数据,只有全局系统视图。图1:Greenplum数据库架构 如图2所示,Segment服务器是真正数据存储的地方,并承担主要的查询工作。用户数据(表、索引)被分布存储到有效的若干Segment,通过Hash算法,每个Segment存放数据的不同部分。图2:Segment服务器真正存储数据图3展示了一套完整的Greenplum数据仓库实施架构示例。独立的Master服务器,通过千兆网络连接在一起的若干Segment服务器,每个Segment服务器挂载独立的RAI

8、D存储。服务器基于X8664位硬件平台,安装Linux操作系统,获得极高的性价比。图3:Greenplum数据库完整实施架构示例图4记录了一次完整的MPP并行查询过程。Master作为查询调度器,为客户端提供连接工作;Segment独立管理数据片和数据操作。调度过程如下:1Master验证客户端用户。2Master连接到所有远程Segment实例。3Master解析SQL语句。4Master建立1个优化的并行查询计划。5Master分布查询计划到所有的Segment实例。6Master协调查询计划在所有Segment上并行执行。7Master收集所有Segment的查询结果并返回到客户端。图4

9、:一次查询调度过程Greenplum独有的SharingNothing架构:数据仓库在执行全表扫描查询时,通常速度被存储的带宽限制,即瓶颈大多集中在I/O。Greenplum的Sharing-Nothing架构物理分离数据,存储到若干Segment服务器,每个Segment使用多个、专用的、独立的、高速的通道独立连接到磁盘,并把管理数据库资源:buffer、lock、block的职责委派到各个Segment,不使用Master统一管理资源!从图5中可以看出与Sharing-Everything架构(如Oracle RAC)对比,存在2个明显区别:SegmentnSegment2Segment1

10、图5:sharing-everying对比sharing-nothing数据库架构1) 数据库物理存储方式不同:在RAC环境下,数据库集中存储,集群中的所有节点共享I/O通道访问数据,随着TB级别海量数据的增加,I/O瓶颈可想而知。2) 集群节点间内部通信管理方式不同:如图6,RAC使用GRD(Global Resource Directory)统一管理数据库资源,管理内部节点间通信。用户对每个block的访问,都要经过GRD的协调调度,极其繁琐且需要额外的进程通信负担;随着节点个数的增加,GRD会增加管理的复杂度,可能会导致产生性能问题!图6:Oracle RAC的GRD架构2 安装2.1

11、安装2.1.1 安装准备CentOS-6.3-x86_64-bin-DVD1.isoVMware Workstationgreenplum-db-4.2.1.0-build-3-CommunityEdition-RHEL5-x86_64.zip2.1.1.1 os的配置以root用户操作2.1.1.2 检查系统条件检查系统名称,版本,内核.# uname -a检查磁盘空间# df -h2.1.1.3 设置主机名#vi /etc/sysconfig/network HOSTNAME=*single* (*变量*,以后出现*string*,均指变量)2.1.1.4 设置集群各个机器ip与主机的对应

12、表#vi /etc/hosts127.0.0.1 single localhost配置运行参数:#vi /etc/sysctl.conf添加修改:kernel.sem = 250 64000 100 512kernel.shmmax = 500000000(最大共享内存)kernel.shmmni = 4096kernel.shmall = 4000000000(共享内存总量)kernel.sem = 250 64000 100 512kernel.sysrq = 1kernel.core_uses_pid = 1kernel.msgmnb = 65536kernel.msgmax = 655

13、36net.ipv4.tcp_syncookies = 1net.ipv4.ip_forward = 0net.ipv4.conf.default.accept_source_route = 0net.ipv4.tcp_tw_recycle=1net.ipv4.tcp_max_syn_backlog=4096net.ipv4.conf.all.arp_filter = dev_max_backlog=10000vm.overcommit_memory=2#vi /etc/security/limits.conf添加修改* soft nofile 65536 * hard nofile 6553

14、6 * soft nproc 131072* hard nproc 1310722.1.1.5 关闭iptablesrootlocalhost # service iptables stopiptables:清除防火墙规则: 确定iptables:将链设置为政策 ACCEPT:filter 确定iptables:正在卸载模块: 确定rootlocalhost # chkconfig iptables offrootlocalhost # service ip6tables stopip6tables:清除防火墙规则: 确定ip6tables:将 chains 设置为 ACCEPT 策略:filter 确定:正在卸载模块:

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 营销创新

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号