大数据探索-阿里巴巴数据交换平台

资源描述

《大数据探索-阿里巴巴数据交换平台》由会员分享，可在线阅读，更多相关《大数据探索-阿里巴巴数据交换平台（40页珍藏版）》请在金锄头文库上搜索。

1、大数据平台初探阿里数据交换平台强琦提纲大数据与云计算的关系平台的场景与技术构成阿里巴巴数据交换平台及其关键技术大数据下的技术与商业初探大数据与云计算的关系大数据定义：Volume，Variety，Velocity，Value 应用领域：政府，科技，企业，社会。生态：受众，开发者，平台，数据供给风险：开放与控制，个性化与隐私，。数据场景：见后技术：云计算，数据仓库，数据开发，数据挖掘，。见后关系中心中心数据生命周期数据生命周期轴轴描述描述云计算用户具备工具性；数据私有。大数据数据数据本身横向数据作用到计算；具备可运营性，使数据可分享，可加

2、；管理数据是重头。大数据的数据场景时效要求时效要求 ( (对平台要求对平台要求) ) 吞吐吞吐成本要求成本要求服务服务备注备注数据服务毫秒，秒极高低数据展示各KV们， Hbase 们，业务 (数据) 毫秒，秒高高业务支撑 OLTP(DB) 数据应用毫秒，秒高（重）/中（轻）高 Ad-hoc 多场景(待深度分析) 数据分析浅层(秒)，深层(分钟) 小中在线/离线计算用来支撑数据决策深度分析小时，天高低离线计算 (MR,MPI,BSP,STREAM ING) 数据挖掘数据决策过程小高决策平台 (算法平台) 云端sa

3、s 工具服务毫秒，秒高高分词，地理服务等同步模式或触发器服务 (ifttt) 场景的技术说明数据服务不同场景（写，读比例） LSM-Tree 业务 OLTP，关联，事务 DB 数据应用全内存，成本敏感，compact，只读数据集数据分析落地，以吞吐降成本，列存储，in process计算，dremel，impala 深度分析规模取胜，重在吞吐，容错机制(MR,BSP)，错峰超卖，hive（开发成本）备：场景决定技术方案，不同方案服务（云）化挑战不同，high点不同。（yarn?）技术数据传输数据库日志，业务系统日志，埋点，批量同步方案，队列存储块，小

4、，大，流，kv，事务，本地计算，统一的接入层计算 BSP（MR，HAMA）, MPI, Streaming, OLTP, OLAP, AD-HOC(real-time computing) ，统一的接入层展现分析可视化，数据可视化技术开发平台调度，元数据管理，数据建模，IDE 市场应用市场，数据市场，市场机制数据管理预警，质量监控，元数据，逻辑，ODS，生命周期开放安全，审计，计量，监控 http:/ do?id=1-1BU465T&ct=120827#h-d2e182 数据交换平台及其关键技术阿里阿里腾讯腾讯百度百度 Faceboo k Google Amaz

5、o n 数据规模结构化关联性商业价值数据交换平台交换只有平台只有数据有进有出做加法，甚至乘法数据作为资产的数据银行(存款者，客户，金融服务，银行) 开放数据交换平台打通、整合集团数据个性化服务构建统一的大数据开发平台 Alibaba Map 信用金融社会化物流管理 SASS 数据交换平台淘宝天猫一淘阿里云 C N Z Z 金融关键技术 ODPS 开放服务化离线数据分析服务（MR,MPI,DT） ODS 开放与共享源头数据质量监控元数据管理实时时效要求时效要求 ( (对平台要求对平台要求) ) 吞吐吞吐成本要求成本要求服务服务备

6、注备注数据服务毫秒，秒极高低数据展示各KV们， Hbase 们，业务 (数据) 毫秒，秒高高业务支撑 OLTP(DB) 数据应用毫秒，秒高（重）/中（轻）高 Ad-hoc 多场景(待深度分析) 数据分析浅层(秒)，深层(分钟) 小中在线/离线计算用来支撑数据决策实时特点 Ad-hoc computing：计算不可枚举，计算在 query时发生。在线实时。这里的实时侧重 query的实时计算。（数据的实时计算） Stream computing：计算可枚举，计算在数据发生变化时发生。离线实时。这里的实时侧重实时数据的处理。（实时数据的计算）

7、Continuous Computing：计算可加（增量），大数据集的在线复杂实时计算。整体。实时数据的实时计算实时数据服务重数据存储，轻计算（coprocessor）业务(数据) OLTP(DB), 增删改查，事务，范式数据应用 Memory, ssd；只读场景；复杂计算； SQL解析、成本优化器、计算引擎、存储引擎。实时深度分析 MR。以吞吐见长，简单有效的容错机制，使其可以得以线性扩展，使错峰超卖成为可能性，以规模取胜，数据传递以跨进程方式(数据)。浅度分析数据只读（非oltp，所以可对数据结构做紧凑的设计，以对特定的查询优化）；吞吐要求不高。（这

8、类应用面向的是运营）；时效性要求在秒到分钟级；in-process的计算；列存储数据量巨大（要求低成本存储方案）；非原始数据ODS。一般为加工过的宽表。 Dremel&impala Garuda RT OLAP (Realtime OLAP) Real-Time Objects/Cube/Dimension 在线数据分析访问量低/半结构化/无需定义/低成本在线数据应用高并发/预定义/高成本初始化/低成本复用 Garuda :rud:rud: 印度神话印度神话迦楼罗迦楼罗中国神话中国神话大鹏大鹏最重的动物最重的动物+ +最快的速度最快的速度大鹏一日同风起大鹏一日同风

9、起扶摇直上九万里扶摇直上九万里李白李白场景实时计算定义：实时计算定义：针对只读数据进行即时即时数据的获取和计算基于选择和基于扫描的结果集(候选集与全集比例) 相关： RTOLAP(Realtime OLAP) Grid Computing In-memory database 特性 Fixed/Free Schema（列存储） Partition/TableGroup 全索引本地计算迭代计算大表Join 缓存资源管理调度可用性滚动升级 Partition/TableGroup Parition List Range Hash TableGroup Join Partit

10、ionGroup Garuda DBx TableGroupx Tablex Partitionx 选择计算列计算列/ /索引列索引列( (倒置倒置) ) 计算列计算列 memory memory 索引列索引列 diskdisk 索引索引 HashHash B+TreeB+Tree SkiplistSkiplist BitmapBitmap 倒排倒排压缩压缩 String？ PForDelta(11%) Index array(abstract) tree SSD skiplist SSD hashmap SSD unique memory 本地计算 5.4 本地计算 mergeNodem

11、ergeNode： SQL解析路由分发结果缓存合并迭代计算 LocalnodeLocalnode SQL解析索引查找计算带宽？带宽？结果（MN） LcnLcn1 1 Lcn3Lcn3 Lcn2Lcn2 Lcn4Lcn4 Lcn5Lcn5 缓存 5.6 缓存本地节点缓存：本地节点缓存： LIRS Evicted Factor： Object Type/Object Size Object Domain Memory SSD SATA 数据数据主键索引主键索引高频小高频小索引索引低频大低频大索引索引高频索引缓存区高频索引缓存区资资源源层层调度动态规划算法 Mo

12、nitor 服务器分布式锁（主/备）可运维参数：可用内存、可用磁盘（Buffer阈值）每个表占用的内存、磁盘最小可用实例数最小Failover机器数每个分区最小可用份数每个表最多保留分区数表组信息虚拟机组滚动升级整理上线 . T4虚拟机 Group1 Group2 可用性 5.8 可用性 Failover RotateFailover Rotate 资源虚拟资源虚拟化化(T4)(T4) Heartbeat 双机房任务分布式锁任务持久化任务跟踪JobID 执行时间监控集群集群 FailOverFailOver 导入导入下线下线 OLDOLD Materialit

13、yMateriality formlessformless 持久化持久化盘古盘古上线上线重点夯实基础存储引擎性能，成本，稳定性，运维架构梳理分布式调度、SQL解析、成本优化器、计算引擎存储引擎：Memory行存储引擎、长周期引擎、检索引擎、列存储引擎等离线build&load 业务功能 Stream computing特点流（stream）:由业务产生的有向（渠道）无界的数据流。不可控：到达时机，相关数据顺序，质量（残缺）， only once，规模，上游不可控（业务改变，渠道）时效性要求：容错方案，体系架构处理粒度最小：对架构影响决定性处理算子对全局状态影响

14、不同：有状态，无状态；幂等，顺序相关（偏序，全序）（多）输出性质不同：action，state(大多数节点为commit点，少数为commit点) 业务淘宝双11直播间 100亿数据多张大表join 时序准确与效率消重可运营移动三个层次 SQL CREATE STREAM stream_name CREATE DIM TABLE dim_name CREATE CACHE TABLE AS SELECT ALL|col1udf(col2),+ from DIMTABLE WHERE conditions WITH(cache_parameter=value*,+) CREATE RESULT TABLE result_name CREATE TMP TABLE tmp_tablename SELECT * | expression AS output_name , . FROM from_item *alias+ with *window()+ * *left|full outer join . on join_condition WHER

展开阅读全文