AsterData介绍材料

上传人:ali****an 文档编号:134643062 上传时间:2020-06-07 格式:DOC 页数:33 大小:4.28MB
返回 下载 相关 举报
AsterData介绍材料_第1页
第1页 / 共33页
AsterData介绍材料_第2页
第2页 / 共33页
AsterData介绍材料_第3页
第3页 / 共33页
AsterData介绍材料_第4页
第4页 / 共33页
AsterData介绍材料_第5页
第5页 / 共33页
点击查看更多>>
资源描述

《AsterData介绍材料》由会员分享,可在线阅读,更多相关《AsterData介绍材料(33页珍藏版)》请在金锄头文库上搜索。

1、Aster Data全球客户名单(部分)1 1/4/12 Footer适合大数据分析的Aster 框架满足大数据管理呾分析的需求:预打包好的高级分析 框架(50多个 )行业领先的动态负载管理利用MapReduce,DBMS引擎并行执行应用程序混合行/列 MPP数据 库,具备超高性能通用/与业化平台硬 件2 1/4/12 FooterAster nCluster体系架构说明Queen NodesReports, Analytics, Applications (SQL / ODBC / JDBC / OleDB) 管理系统,配置信息,错误控制 对外查询接口 全局查询优化器 Queries/Ans

2、wers 分解SQL语句,传送到计划器 计划器产生一系列用于执行的子查询 执行器将执行子查询,并汇总结果信息QueriesWorker Nodes 存储数据 执行Queen节点的命令 执行查询、复制、平衡存储、平衡处理 Data 本地查询优化器Loader Nodes 从装载客户端获得新数据Aster nCluster Database 将数据分区到合适的片段 在worker 节点间分布片段数据 3 1/4/12 Footer对多种数据的分析能力Aster Data 能够对多结构化数据、原始数据进行处理和分析Aster Data Analytic Platform多结构化原始数据raw dat

3、aSQL-MapReduce OutputCol1 Col2 Col3 Col4结构化数据(DW, DBMS)tokenize, unpack, sessionize, 处理和探索 结果利用整合的数据 可以将原始数据直接装载 到 nCluster 中 使用SQL-MapReduce 功能来解析和分析原始数据 实时地利用灵活的、动态产生模式来进行 利用SQL-MapReduce处理后产生的结构化数据可以为后续分析使用,或输出到数据仓库4 1/4/12 Footer数据分区物理分区 在nCluster 中,在多个虚拟workers 之间分割表中的数据 当创建表时,需要申明某一列作 partitio

4、n key. 物理分区基于hash算法的. 对于表中给定的列,nCluster 计算partition key的 hash值,并行数据到基于hash值指定的分区。 对于带有partition key的物理分区是自动执行的。逻辑分区 在物理分区基础上,进一步逻辑组织数据,这样可以提升性能和可管理性5 1/4/12 Footer Confidential and proprietary. Copyright 2009 Aster Data Systems两阶段优化器使得本地计算最大化n两阶段的查询优化 全局优化器将高级查询翻译成子查询/阶段 本地优化地保证每个worker自己的查询优化Global

5、 Optimizern数据处理和数据实现自劢化分区n计算更加接近数据 在有需要的地斱提供网络优化Local vWorkerOptimizerLocal vWorkerOptimizerLocal vWorkerOptimizer在全局和本地独立的优化,从达到最高性能6 1/4/12 Footer当数据需要迁移时,InterConnect Express实现高 级网络优化Aster Data网络优化是如何进行的逻辑优化物理优化n 网络优化查询计划n 数据传输优化 最大化本地计算来减少网络数据流量 在节点之间的数据传输时自动压缩数据n 在线Re-sync Query-aware呾管道传输实现查询呾

6、数据 减少错误恢复时的数据流量传输并行n I/O 优化 时刻进行查询统计 为读/写压缩数据7 1/4/12 Footer虚拟 workers: 副本与可靠性复制可避免数据丢失/不可用: 复制每个 v-worker , 理想情况下,复制到分开的 worker node. 查询处理只在 active v-workers上.8 1/4/12 Footer虚拟workers: 故障转移故障转移: 故障转移是自动化的,对性能影响最小9 1/4/12 Footer一键在线增量扩容nCluster, 数据仓库扩容如数据增 长一样容易n 增量扩容Reports, Analytics, Applications

7、(SQL/ SQL-MapReduce/ ODBC / JDBC)- 独立扩展每一顷功能Queries/ResultsAster Data nCluster- 通过抽取需要的资源数量来进行灵活的扩容 如MySpace用6小时从164TB扩容到Queen308TBQueriesn 无停机的扩容Workers- 增加新节点无需停机- 数据自动重分布n 一键扩容Data Data- nCluster管理界面实现一键安装呾配置新的集Loading/Export Backup群10 1/4/12 Footer在线备份架构Backup manager节点负责不Queen节点交互控制信息,丌参不数据备仹数据

8、流,避免单点故障在数据源进行数据压缩更低备仹降低数据量,提升网络利用率存储成本高效的海量并行的备仹/恢复数据流n 准确的数据多版本控制保障在线备仹数据的一致性n 增量备仹保障备仹数据的灵活性呾高效性11 1/4/12 Footer劢态负载管理为了保障一致的性能,优化资源的使用负载负载策略执行Policy An 丌同粒度的优先级觃则Analysts(Interactive Queries)Policy Bn 动态资源分配呾重分配Policy CDatabasen 数百个并发的混合负载n 应用SQL呾SQL-MapReduceBatch Reports进程Policy DLoads劢态资源分配和重

9、分配12 1/4/12 Footer企业级管理对于数据及分析过程提供强大的可规化的管控平台Aster Data 管理控制台Dashboards 汇总cluster 状态和活跃查询和处理统计 提供处理细节视图节点查看 查看节点健康程度和状态nCluster 架构适合于库内高级分析n 统一的计算层提供分析接口的选择Aster Data nCluster-完全并行的标准 ANSI SQLSQL SQL-MapReduce-下沉的标准应用(e.g. SAS, R, Python, C# or perl)-使用Java/C API编写的MapReduceApp App App App App App-预

10、先打包的SQL-MapReduce功能,包含在nCluster Foundation中 在集群中自动并行执行-标准的BI工具通过ODBC/JDBC连接器连接nCluster14 1/4/12 FooterAster Data提供两种分析框架:SQL 和 MapReduceAster Data将SQL和MapReduce结合,提供易用但功能强大的分析手段SQL SQL-MapReduceSQL 更加适合于:MapReduce更加适合于:n一个表中多个属性的标准化转换n 个性化数据转换n在表上使用GROUP BY的标准聚合 e.g. unstructured data, log sum(), ma

11、x(), stddev()n多表Joinn数据集过滤 查询,将一张表过滤到一个子数据集n表述格式化extraction, conditionalmanipulationn 个性化聚合n 行之间关联分析, 如时间序列n 多层次查询 Nested queries, sub-queries, recursive queries For example, “get me topK counts only”n 需重组数据结构到新的结构的分析 Graph analysis, decisiontrees, etc.15SQL-MR适合的场景Aster Data SQL-MapReduce 处理方式 数据单程

12、访问 逐次顸序分析 自动识别间距实例: 模式匹配分析在顸序数据中发掘模式Traditional SQL 处理方式 全表扫描 分析先后顸序时需大量的Self-Joins 非常有限的查询操作可以采用数据排序斱式进行电子商务 通信行业 金融 政府Session规整 通话模式 交易顺序 模式监测点击分析 信令处理 Pairs Trading Fuzzy Matching黄金路径 预测 欺诈监测 推理分析利润贡献 Inexact linking示例:黄金通道分析挑战: 寻找十大最常见的在首页开始到购买页的路径.SELECT path, count(*) as freqFROM NPATH (ON pag

13、e_event_fact 在连接中使用的模式字符,来客户化模式以匹配规则PARTITION BY session_keyORDER BY page_event_timestampMODE (NONOVERLAPPING) “.” : 并列符,用于分割一系列模式字符 “?” : 通常只发生一次 “*” : 发生零次或多次 “+”: 发生至少一次PATTERN (HOME.ANY*.PURCHASE$) “” : 模式必须开始的样式SYMBOLS (page_key = 1 AS HOME, TRUE AS B, “$” : 模式必须结束的样式 page_key = 20 AS PURCHASE

14、) RESULT( ACCUMULATE(page_key OF B) AS path ) TGROUP BY pathORDER BY freq DESC LIMIT 10;17 1/4/12 FooternPATH Syntax类似SQL形式,模式可灵活自定义(6) Select output (eg. count)FROM nPath (1) Fetch the data(2) Create partitioned “buckets”ORDER BY expression ASC | DESC (3) Sort within each bucketMODE ( OVERLAPPING | NONOVERLAP

展开阅读全文
相关资源
相关搜索

当前位置:首页 > IT计算机/网络 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号