Aster Data介绍材料

上传人:飞****9 文档编号:142982792 上传时间:2020-08-25 格式:PDF 页数:29 大小:2.05MB
返回 下载 相关 举报
Aster Data介绍材料_第1页
第1页 / 共29页
Aster Data介绍材料_第2页
第2页 / 共29页
Aster Data介绍材料_第3页
第3页 / 共29页
Aster Data介绍材料_第4页
第4页 / 共29页
Aster Data介绍材料_第5页
第5页 / 共29页
点击查看更多>>
资源描述

《Aster Data介绍材料》由会员分享,可在线阅读,更多相关《Aster Data介绍材料(29页珍藏版)》请在金锄头文库上搜索。

1、1 1/4/12 Footer Aster Data全球客户名单(部分) 2 1/4/12 Footer 适合大数据分析的Aster 框架 满足大数据管理呾分析的需求: 预打包好的高级分析 框架(50多个 ) 行业领先的动 态负载管理 利用MapReduce, DBMS引擎并行执行 应用程序 混合行/列 MPP数据 库,具备超高性能 通用/与业化平台硬 件 3 1/4/12 Footer Aster nCluster体系架构说明 Queen Nodes 管理系统,配置信息,错误控制 对外查询接口 全局查询优化器 分解SQL语句,传送到计划器 计划器产生一系列用于执行的子查询 执行器将执行子查询

2、,并汇总结果信息 Queries/Answers Queen Reports, Analytics, Applications (SQL / ODBC / JDBC / OleDB) Queries Data Worker Nodes Loader Nodes Aster nCluster Database Worker Nodes 存储数据 执行Queen节点的命令 执行查询、复制、平衡存储、平衡处理 本地查询优化器 Loader Nodes 从装载客户端获得新数据 将数据分区到合适的片段 在worker 节点间分布片段数据 4 1/4/12 Footer 对多种数据的分析能力 Aster

3、Data 能够对多结构化数据、原始数据进行处理和分析 多结构化原始数据多结构化原始数据 raw data 结构化数据结构化数据 (DW, DBMS) Aster Data Analytic Platform Col1 Col2 Col3 Col4 SQL-MapReduce Output 整合的数据整合的数据 可以将原始数据直接装载 到 nCluster 中 处理和探索处理和探索 使用SQL-MapReduce 功 能来解析和分析原始数据 实时地利用灵活的、动态产 生模式来进行 结果利用结果利用 利用SQL-MapReduce处理 后产生的结构化数据可以为 后续分析使用,或输出到数 据仓库 t

4、okenize, unpack, sessionize, 5 1/4/12 Footer 数据分区 物理分区物理分区 在nCluster 中,在多个虚拟workers 之间分割表中的数据 当创建表时,需要申明某一列作 partition key. 物理分区基于hash算法的. 对于表中给定的列,nCluster 计算partition key的 hash值,并行数据到基于hash值指定的分区。 对于带有partition key的物理分区是自动执行的。 逻辑分区逻辑分区 在物理分区基础上,进一步逻辑组织数据,这样可以提升性能和可管理性 Confidential and proprietary.

5、 Copyright 2009 Aster Data Systems 6 1/4/12 Footer 两阶段的查询优化 全局优化器将高级查询翻译成子查询/阶段 本地优化地保证每个worker自己的查询优化 数据处理和数据实现自劢化分区 计算更加接近数据 在有需要的地斱提供网络优化 在全局和本地独立的优化,从达到最高性能 Global Optimizer Local vWorker Optimizer Local vWorker Optimizer Local vWorker Optimizer 两阶段优化器使得本地计算最大化 7 1/4/12 Footer 当数据需要迁移时,InterConn

6、ect Express实现高 级网络优化 物理优化 数据传输优化 在节点之间的数据传输时自动压缩数据 Query-aware呾管道传输实现查询呾数据 传输并行 时刻进行查询统计 逻辑优化 网络优化查询计划 最大化本地计算来减少网络数据流量 在线Re-sync 减少错误恢复时的数据流量 I/O 优化 为读/写压缩数据 Aster Data网络优化是如何进行的 8 1/4/12 Footer 虚拟 workers: 副本与可靠性 复制可避免数据丢失/不可用: 复制每个 v-worker , 理想情况下,复制到分开的 worker node. 查询处理只在 active v-workers上. 9

7、1/4/12 Footer 虚拟workers: 故障转移 故障转移: 故障转移是自动化的,对性能影响最小 10 1/4/12 Footer 增量扩容 -独立扩展每一顷功能 -通过抽取需要的资源数量来进行灵活的扩容 如MySpace用6小时从164TB扩容到 308TB 无停机的扩容 -增加新节点无需停机 -数据自动重分布 一键扩容 -nCluster管理界面实现一键安装呾配置新的集 群 一键在线增量扩容nCluster, 数据仓库扩容如数据增 长一样容易 Aster Data n nCluster Workers Loading/Export Queries Backup Queries/R

8、esults Reports, Analytics, Applications (SQL/ SQL-MapReduce/ ODBC / JDBC) Queen Data Data 11 1/4/12 Footer 在线备份架构 准确的数据多版本控制保障在线备仹数据的一致性 增量备仹保障备仹数据的灵活性呾高效性 更低备仹 存储成本 高效的海量并行的备仹/恢复数据流 在数据源进行数据压缩 降低数据量,提升网络 利用率 Backup manager节点 负责不Queen节点交互 控制信息,丌参不数据 备仹数据流,避免单点 故障 12 1/4/12 Footer 劢态负载管理 为了保障一致的性能,优化

9、资源的使用 丌同粒度的优先级觃则 动态资源分配呾重分配 数百个并发的混合负载 应用SQL呾SQL-MapReduce 进程 Analysts (Interactive Queries) Batch Reports Loads Policy A Policy B 负载策略 Policy C Policy D 负载 Database 执行 劢态资源分配和重分配 13 1/4/12 Footer 企业级管理 对于数据及分析过程提供强大的可规化的管控平台 Aster Data 管理控制台 Dashboards 汇总汇总cluster 状态和活跃状态和活跃 查询和处理统计查询和处理统计 提供处理细节视图

10、提供处理细节视图 节点查看节点查看 查看节点健康程度和状态查看节点健康程度和状态 14 1/4/12 Footer nCluster 架构适合于库内高级分析 统一的计算层提供分析接口的选择 -完全并行的标准 ANSI SQL -下沉的标准应用(e.g. SAS, R, Python, C# or perl) -使用Java/C API编写的MapReduce -预先打包的SQL-MapReduce功能,包含在nCluster Foundation中 在集群中自动并行执行 -标准的BI工具通过ODBC/JDBC连接器连接nCluster Aster Data nCluster App App A

11、pp App App App SQL SQL-MapReduce 15 1/4/12 Footer Aster Data提供两种分析框架:SQL 和 MapReduce Aster Data将SQL和MapReduce结合,提供易用但功能强大的分析手段 SQL SQL 更加适合于: 一个表中多个属性的标准化转换 在表上使用GROUP BY的标准聚合 sum(), max(), stddev() 多表Join 数据集过滤 查询,将一张表过滤到一个子 数据集 表述格式化 For example, “get me top K counts only” MapReduce更加适合于: 个性化数据转换

12、e.g. unstructured data, log extraction, conditional manipulation 个性化聚合 行之间关联分析, 如时间序列 多层次查询 Nested queries, sub- queries, recursive queries 需重组数据结构到新的结构的分析 Graph analysis, decision trees, etc. SQL-MapReduce 16 1/4/12 Footer SQL-MR适合的场景 电子商务 通信行业 金融 政府 Session规整 点击分析 黄金路径 利润贡献 通话模式 信令处理 预测 交易顺序 Pairs

13、 Trading 欺诈监测 Inexact linking 模式监测 Fuzzy Matching 推理分析 实例: 模式匹配分析 在顸序数据中发掘模式 Aster Data SQL-MapReduce 处理方式 数据单程访问 逐次顸序分析 自动识别间距 Traditional SQL 处理方式 全表扫描 分析先后顸序时需大量的Self-Joins 非常有限的查询操作可以采用数据排序斱式进行 17 1/4/12 Footer 示例:黄金通道分析 挑挑战战: : 寻找十大最常见的在首页开始寻找十大最常见的在首页开始到购买页的路径购买页的路径. SELECT path, count(*) as f

14、req FROM NPATH ( ON page_event_fact PARTITION BY session_key ORDER BY page_event_timestamp MODE (NONOVERLAPPING) PATTERN (HOME.ANY*.PURCHASE$) SYMBOLS (page_key = 1 AS HOME, TRUE AS B, page_key = 20 AS PURCHASE ) RESULT( ACCUMULATE(page_key OF B) AS path ) ) T GROUP BY path ORDER BY freq DESC LIMIT

15、10; 在连接中使用的模式字符,来客户化模式以匹配 规则 “.” : 并列符,用于分割一系列模式字符 “?” : 通常只发生一次 “*” : 发生零次或多次 “+”: 发生至少一次 “” : 模式必须开始的样式 “$” : 模式必须结束的样式 18 1/4/12 Footer SELECT FROM nPath ( ON table_name | (query) PARTITION BY expression ORDER BY expression ASC | DESC MODE ( OVERLAPPING | NONOVERLAPPING ) PATTERN ( pattern_of_symbols ) SYMBOLS ( condition AS symbol , ) RESULT ( aggr_func (expr of symbol) ) ) AS WHERE GROUP BY HAVING ORDER BY nPATH Syntax 类似类似SQL形式,模式可灵活自定义形式,模式可灵活自定义

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 冶金工业

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号