《云时代大数据管理引擎介绍》由会员分享,可在线阅读,更多相关《云时代大数据管理引擎介绍(13页珍藏版)》请在金锄头文库上搜索。
1、,云时代大数据管理引擎介绍 HAWQ+,HAWQ简介及发展历程,原生Hadoop并行SQL引擎 GoH - HAWQ Alpha - HAWQ 1.0 - HAWQ 1.x HAWQ 2.0 & Apache incubating http:/hawq.incubator.apache.org 偶数科技HAWQ+ http:/www.oushu.io,HAWQ组件,HAWQ体系架构,Yarn,Physical Segment,client,Masters,Parser/ Analyzer,Optimizer,Dispatcher,DataNode,NodeManager,NameNode,Ex
2、ternal System,Resource Manager,Fault Tolerance Service,Catalog Service,Virtual Segment,Virtual Segment,Physical Segment,DataNode,NodeManager,Virtual Segment,Virtual Segment,Physical Segment,DataNode,NodeManager,Virtual Segment,Virtual Segment,Resource Broker,libYARN,HDFS Catalog Cache,Interconnect,I
3、nterconnect,HAWQ优化器,SELECT l_orderkey, count(l_quantity) FROM lineitem, orders WHERE l_orderkey=o_orderkey AND l_tax0.01 GROUP BY l_orderkey;,motion: redistribute motion: 按照 hash值把数据发送到多个 目标节点。 broadcast motion: 把数据广 播到所有目标节点。 gather motion: 把数据从多 个节点收集到一个节点。,HAWQ查询处理流程,HAWQ资源管理,目标 负责向YARN申请资源和回退资源
4、负责为HAWQ用户,查询和操作符分配资源 三级资源管理 全局资源管理 内部资源管理 操作符级别资源管理 多级资源队列 CPU和memory的管理,HAWQ存储,Row oriented: AO Quicklz, zlib PAX like: Parquet Snappy, gzip Other format: via PXF,HAWQ+新特性,HAWQ+ 2.0.1& 2.1 (2017年Q1) 可插拔存储(文件系统,存储格式等) 优化外部数据访问 容器云平台支持 HAWQ+ 3.0 高性能执行引擎 (已有原型系统),集群选择: 单节点 or 多节点 集群属性:HA, Kerberos 安装组
5、件:Zookeeper, HDFS, HAWQ 安装方式:RPM手工安装 or Ambari部署集群,文档部分可以参考:http:/oushu.io/docs/hawq/ Yum源:http:/yum.oushu.io/oushurepo/hawq+repo,HAWQ+安装部署,访问HAWQ+ 交互式命令行工具psql访问HAWQ+ libpq访问HAWQ+ JDBC访问HAWQ+ ODBC访问HAWQ+HAWQ+和PostgreSQL兼容,可以使用PostgreSQL 的驱动和编程接口访问HAWQ+,HAWQ+导入导出数据 hdfs外部表导入导出数据gpfdist外部表导入导出数据 COPY命令导入导出数据 hawq load工具导入数据,MADlib的安装 gppkg i gpstop r $GPHOME/madlib/bin/madpack p hawq install MADlib的使用:HAWQ+里默认的MADlib函数的 schema是madlib 文档部分可以参考:http:/madlib.incubator.apache.org/,HAWQ+结合MADlib的使用,