Aster Data介绍材料－金锄头文库

资源描述

《Aster Data介绍材料》由会员分享，可在线阅读，更多相关《Aster Data介绍材料（29页珍藏版）》请在金锄头文库上搜索。

1、1 1/4/12 Footer Aster Data全球客户名单（部分） 2 1/4/12 Footer 适合大数据分析的Aster 框架满足大数据管理呾分析的需求：预打包好的高级分析框架(50多个 ) 行业领先的动态负载管理利用MapReduce， DBMS引擎并行执行应用程序混合行/列 MPP数据库，具备超高性能通用/与业化平台硬件 3 1/4/12 Footer Aster nCluster体系架构说明 Queen Nodes 管理系统，配置信息，错误控制对外查询接口全局查询优化器分解SQL语句，传送到计划器计划器产生一系列用于执行的子查询执行器将执行子查询

2、，并汇总结果信息 Queries/Answers Queen Reports, Analytics, Applications (SQL / ODBC / JDBC / OleDB) Queries Data Worker Nodes Loader Nodes Aster nCluster Database Worker Nodes 存储数据执行Queen节点的命令执行查询、复制、平衡存储、平衡处理本地查询优化器 Loader Nodes 从装载客户端获得新数据将数据分区到合适的片段在worker 节点间分布片段数据 4 1/4/12 Footer 对多种数据的分析能力 Aster

3、Data 能够对多结构化数据、原始数据进行处理和分析多结构化原始数据多结构化原始数据 raw data 结构化数据结构化数据 (DW, DBMS) Aster Data Analytic Platform Col1 Col2 Col3 Col4 SQL-MapReduce Output 整合的数据整合的数据可以将原始数据直接装载到 nCluster 中处理和探索处理和探索使用SQL-MapReduce 功能来解析和分析原始数据实时地利用灵活的、动态产生模式来进行结果利用结果利用利用SQL-MapReduce处理后产生的结构化数据可以为后续分析使用，或输出到数据仓库 t

4、okenize, unpack, sessionize, 5 1/4/12 Footer 数据分区物理分区物理分区在nCluster 中，在多个虚拟workers 之间分割表中的数据当创建表时，需要申明某一列作 partition key. 物理分区基于hash算法的. 对于表中给定的列，nCluster 计算partition key的 hash值，并行数据到基于hash值指定的分区。对于带有partition key的物理分区是自动执行的。逻辑分区逻辑分区在物理分区基础上，进一步逻辑组织数据，这样可以提升性能和可管理性 Confidential and proprietary.

5、 Copyright 2009 Aster Data Systems 6 1/4/12 Footer 两阶段的查询优化全局优化器将高级查询翻译成子查询/阶段本地优化地保证每个worker自己的查询优化数据处理和数据实现自劢化分区计算更加接近数据在有需要的地斱提供网络优化在全局和本地独立的优化，从达到最高性能 Global Optimizer Local vWorker Optimizer Local vWorker Optimizer Local vWorker Optimizer 两阶段优化器使得本地计算最大化 7 1/4/12 Footer 当数据需要迁移时，InterConn

6、ect Express实现高级网络优化物理优化数据传输优化在节点之间的数据传输时自动压缩数据 Query-aware呾管道传输实现查询呾数据传输并行时刻进行查询统计逻辑优化网络优化查询计划最大化本地计算来减少网络数据流量在线Re-sync 减少错误恢复时的数据流量 I/O 优化为读/写压缩数据 Aster Data网络优化是如何进行的 8 1/4/12 Footer 虚拟 workers: 副本与可靠性复制可避免数据丢失/不可用: 复制每个 v-worker , 理想情况下，复制到分开的 worker node. 查询处理只在 active v-workers上. 9

7、1/4/12 Footer 虚拟workers: 故障转移故障转移: 故障转移是自动化的，对性能影响最小 10 1/4/12 Footer 增量扩容 -独立扩展每一顷功能 -通过抽取需要的资源数量来进行灵活的扩容如MySpace用6小时从164TB扩容到 308TB 无停机的扩容 -增加新节点无需停机 -数据自动重分布一键扩容 -nCluster管理界面实现一键安装呾配置新的集群一键在线增量扩容nCluster，数据仓库扩容如数据增长一样容易 Aster Data n nCluster Workers Loading/Export Queries Backup Queries/R

8、esults Reports, Analytics, Applications (SQL/ SQL-MapReduce/ ODBC / JDBC) Queen Data Data 11 1/4/12 Footer 在线备份架构准确的数据多版本控制保障在线备仹数据的一致性增量备仹保障备仹数据的灵活性呾高效性更低备仹存储成本高效的海量并行的备仹/恢复数据流在数据源进行数据压缩降低数据量，提升网络利用率 Backup manager节点负责不Queen节点交互控制信息，丌参不数据备仹数据流，避免单点故障 12 1/4/12 Footer 劢态负载管理为了保障一致的性能，优化

9、资源的使用丌同粒度的优先级觃则动态资源分配呾重分配数百个并发的混合负载应用SQL呾SQL-MapReduce 进程 Analysts (Interactive Queries) Batch Reports Loads Policy A Policy B 负载策略 Policy C Policy D 负载 Database 执行劢态资源分配和重分配 13 1/4/12 Footer 企业级管理对于数据及分析过程提供强大的可规化的管控平台 Aster Data 管理控制台 Dashboards 汇总汇总cluster 状态和活跃状态和活跃查询和处理统计查询和处理统计提供处理细节视图

10、提供处理细节视图节点查看节点查看查看节点健康程度和状态查看节点健康程度和状态 14 1/4/12 Footer nCluster 架构适合于库内高级分析统一的计算层提供分析接口的选择 -完全并行的标准 ANSI SQL -下沉的标准应用(e.g. SAS, R, Python, C# or perl) -使用Java/C API编写的MapReduce -预先打包的SQL-MapReduce功能，包含在nCluster Foundation中在集群中自动并行执行 -标准的BI工具通过ODBC/JDBC连接器连接nCluster Aster Data nCluster App App A

11、pp App App App SQL SQL-MapReduce 15 1/4/12 Footer Aster Data提供两种分析框架：SQL 和 MapReduce Aster Data将SQL和MapReduce结合，提供易用但功能强大的分析手段 SQL SQL 更加适合于: 一个表中多个属性的标准化转换在表上使用GROUP BY的标准聚合 sum(), max(), stddev() 多表Join 数据集过滤查询，将一张表过滤到一个子数据集表述格式化 For example, “get me top K counts only” MapReduce更加适合于: 个性化数据转换

12、e.g. unstructured data, log extraction, conditional manipulation 个性化聚合行之间关联分析, 如时间序列多层次查询 Nested queries, sub- queries, recursive queries 需重组数据结构到新的结构的分析 Graph analysis, decision trees, etc. SQL-MapReduce 16 1/4/12 Footer SQL-MR适合的场景电子商务通信行业金融政府 Session规整点击分析黄金路径利润贡献通话模式信令处理预测交易顺序 Pairs

13、 Trading 欺诈监测 Inexact linking 模式监测 Fuzzy Matching 推理分析实例: 模式匹配分析在顸序数据中发掘模式 Aster Data SQL-MapReduce 处理方式数据单程访问逐次顸序分析自动识别间距 Traditional SQL 处理方式全表扫描分析先后顸序时需大量的Self-Joins 非常有限的查询操作可以采用数据排序斱式进行 17 1/4/12 Footer 示例：黄金通道分析挑挑战战：：寻找十大最常见的在首页开始寻找十大最常见的在首页开始到购买页的路径购买页的路径. SELECT path, count(*) as f

14、req FROM NPATH ( ON page_event_fact PARTITION BY session_key ORDER BY page_event_timestamp MODE (NONOVERLAPPING) PATTERN (HOME.ANY*.PURCHASE$) SYMBOLS (page_key = 1 AS HOME, TRUE AS B, page_key = 20 AS PURCHASE ) RESULT( ACCUMULATE(page_key OF B) AS path ) ) T GROUP BY path ORDER BY freq DESC LIMIT

15、10; 在连接中使用的模式字符，来客户化模式以匹配规则 “.” : 并列符，用于分割一系列模式字符 “?” : 通常只发生一次 “*” : 发生零次或多次 “+”: 发生至少一次 “” : 模式必须开始的样式 “$” : 模式必须结束的样式 18 1/4/12 Footer SELECT FROM nPath ( ON table_name | (query) PARTITION BY expression ORDER BY expression ASC | DESC MODE ( OVERLAPPING | NONOVERLAPPING ) PATTERN ( pattern_of_symbols ) SYMBOLS ( condition AS symbol , ) RESULT ( aggr_func (expr of symbol) ) ) AS WHERE GROUP BY HAVING ORDER BY nPATH Syntax 类似类似SQL形式，模式可灵活自定义形式，模式可灵活自定义

展开阅读全文

Aster Data介绍材料

最新文档