AsterData介绍材料－金锄头文库

资源描述

《AsterData介绍材料》由会员分享，可在线阅读，更多相关《AsterData介绍材料（33页珍藏版）》请在金锄头文库上搜索。

1、Aster Data全球客户名单（部分）1 1/4/12 Footer适合大数据分析的Aster 框架满足大数据管理呾分析的需求：预打包好的高级分析框架(50多个 )行业领先的动态负载管理利用MapReduce，DBMS引擎并行执行应用程序混合行/列 MPP数据库，具备超高性能通用/与业化平台硬件2 1/4/12 FooterAster nCluster体系架构说明Queen NodesReports, Analytics, Applications (SQL / ODBC / JDBC / OleDB) 管理系统，配置信息，错误控制对外查询接口全局查询优化器 Queries/Ans

2、wers 分解SQL语句，传送到计划器计划器产生一系列用于执行的子查询执行器将执行子查询，并汇总结果信息QueriesWorker Nodes 存储数据执行Queen节点的命令执行查询、复制、平衡存储、平衡处理 Data 本地查询优化器Loader Nodes 从装载客户端获得新数据Aster nCluster Database 将数据分区到合适的片段在worker 节点间分布片段数据 3 1/4/12 Footer对多种数据的分析能力Aster Data 能够对多结构化数据、原始数据进行处理和分析Aster Data Analytic Platform多结构化原始数据raw dat

3、aSQL-MapReduce OutputCol1 Col2 Col3 Col4结构化数据(DW, DBMS)tokenize, unpack, sessionize, 处理和探索结果利用整合的数据可以将原始数据直接装载到 nCluster 中使用SQL-MapReduce 功能来解析和分析原始数据实时地利用灵活的、动态产生模式来进行利用SQL-MapReduce处理后产生的结构化数据可以为后续分析使用，或输出到数据仓库4 1/4/12 Footer数据分区物理分区在nCluster 中，在多个虚拟workers 之间分割表中的数据当创建表时，需要申明某一列作 partitio

4、n key. 物理分区基于hash算法的. 对于表中给定的列，nCluster 计算partition key的 hash值，并行数据到基于hash值指定的分区。对于带有partition key的物理分区是自动执行的。逻辑分区在物理分区基础上，进一步逻辑组织数据，这样可以提升性能和可管理性5 1/4/12 Footer Confidential and proprietary. Copyright 2009 Aster Data Systems两阶段优化器使得本地计算最大化n两阶段的查询优化全局优化器将高级查询翻译成子查询/阶段本地优化地保证每个worker自己的查询优化Global

5、 Optimizern数据处理和数据实现自劢化分区n计算更加接近数据在有需要的地斱提供网络优化Local vWorkerOptimizerLocal vWorkerOptimizerLocal vWorkerOptimizer在全局和本地独立的优化，从达到最高性能6 1/4/12 Footer当数据需要迁移时，InterConnect Express实现高级网络优化Aster Data网络优化是如何进行的逻辑优化物理优化n 网络优化查询计划n 数据传输优化最大化本地计算来减少网络数据流量在节点之间的数据传输时自动压缩数据n 在线Re-sync Query-aware呾管道传输实现查询呾

6、数据减少错误恢复时的数据流量传输并行n I/O 优化时刻进行查询统计为读/写压缩数据7 1/4/12 Footer虚拟 workers: 副本与可靠性复制可避免数据丢失/不可用: 复制每个 v-worker , 理想情况下，复制到分开的 worker node. 查询处理只在 active v-workers上.8 1/4/12 Footer虚拟workers: 故障转移故障转移: 故障转移是自动化的，对性能影响最小9 1/4/12 Footer一键在线增量扩容nCluster，数据仓库扩容如数据增长一样容易n 增量扩容Reports, Analytics, Applications

7、(SQL/ SQL-MapReduce/ ODBC / JDBC)- 独立扩展每一顷功能Queries/ResultsAster Data nCluster- 通过抽取需要的资源数量来进行灵活的扩容如MySpace用6小时从164TB扩容到Queen308TBQueriesn 无停机的扩容Workers- 增加新节点无需停机- 数据自动重分布n 一键扩容Data Data- nCluster管理界面实现一键安装呾配置新的集Loading/Export Backup群10 1/4/12 Footer在线备份架构Backup manager节点负责不Queen节点交互控制信息，丌参不数据备仹数据

8、流，避免单点故障在数据源进行数据压缩更低备仹降低数据量，提升网络利用率存储成本高效的海量并行的备仹/恢复数据流n 准确的数据多版本控制保障在线备仹数据的一致性n 增量备仹保障备仹数据的灵活性呾高效性11 1/4/12 Footer劢态负载管理为了保障一致的性能，优化资源的使用负载负载策略执行Policy An 丌同粒度的优先级觃则Analysts(Interactive Queries)Policy Bn 动态资源分配呾重分配Policy CDatabasen 数百个并发的混合负载n 应用SQL呾SQL-MapReduceBatch Reports进程Policy DLoads劢态资源分配和重

9、分配12 1/4/12 Footer企业级管理对于数据及分析过程提供强大的可规化的管控平台Aster Data 管理控制台Dashboards 汇总cluster 状态和活跃查询和处理统计提供处理细节视图节点查看查看节点健康程度和状态nCluster 架构适合于库内高级分析n 统一的计算层提供分析接口的选择Aster Data nCluster-完全并行的标准 ANSI SQLSQL SQL-MapReduce-下沉的标准应用(e.g. SAS, R, Python, C# or perl)-使用Java/C API编写的MapReduceApp App App App App App-预

10、先打包的SQL-MapReduce功能，包含在nCluster Foundation中在集群中自动并行执行-标准的BI工具通过ODBC/JDBC连接器连接nCluster14 1/4/12 FooterAster Data提供两种分析框架：SQL 和 MapReduceAster Data将SQL和MapReduce结合，提供易用但功能强大的分析手段SQL SQL-MapReduceSQL 更加适合于:MapReduce更加适合于:n一个表中多个属性的标准化转换n 个性化数据转换n在表上使用GROUP BY的标准聚合 e.g. unstructured data, log sum(), ma

11、x(), stddev()n多表Joinn数据集过滤查询，将一张表过滤到一个子数据集n表述格式化extraction, conditionalmanipulationn 个性化聚合n 行之间关联分析, 如时间序列n 多层次查询 Nested queries, sub-queries, recursive queries For example, “get me topK counts only”n 需重组数据结构到新的结构的分析 Graph analysis, decisiontrees, etc.15SQL-MR适合的场景Aster Data SQL-MapReduce 处理方式数据单程

12、访问逐次顸序分析自动识别间距实例: 模式匹配分析在顸序数据中发掘模式Traditional SQL 处理方式全表扫描分析先后顸序时需大量的Self-Joins 非常有限的查询操作可以采用数据排序斱式进行电子商务通信行业金融政府Session规整通话模式交易顺序模式监测点击分析信令处理 Pairs Trading Fuzzy Matching黄金路径预测欺诈监测推理分析利润贡献 Inexact linking示例：黄金通道分析挑战：寻找十大最常见的在首页开始到购买页的路径.SELECT path, count(*) as freqFROM NPATH (ON pag

13、e_event_fact 在连接中使用的模式字符，来客户化模式以匹配规则PARTITION BY session_keyORDER BY page_event_timestampMODE (NONOVERLAPPING) “.” : 并列符，用于分割一系列模式字符 “?” : 通常只发生一次 “*” : 发生零次或多次 “+”: 发生至少一次PATTERN (HOME.ANY*.PURCHASE$) “” : 模式必须开始的样式SYMBOLS (page_key = 1 AS HOME, TRUE AS B, “$” : 模式必须结束的样式 page_key = 20 AS PURCHASE

14、) RESULT( ACCUMULATE(page_key OF B) AS path ) TGROUP BY pathORDER BY freq DESC LIMIT 10;17 1/4/12 FooternPATH Syntax类似SQL形式，模式可灵活自定义(6) Select output (eg. count)FROM nPath (1) Fetch the data(2) Create partitioned “buckets”ORDER BY expression ASC | DESC (3) Sort within each bucketMODE ( OVERLAPPING | NONOVERLAP

展开阅读全文