基于混搭存储引擎融合型分布式数据库架构

资源描述

《基于混搭存储引擎融合型分布式数据库架构》由会员分享，可在线阅读，更多相关《基于混搭存储引擎融合型分布式数据库架构（37页珍藏版）》请在金锄头文库上搜索。

1、基于混搭存储引擎的融合型分布式数据库架构服务型分布式计算和混搭型分布式数据存储助力大数据时代的数据宝藏挖掘 1 分布式的3W问题 2 3 服务型分布式计算基于混搭存储引擎的融合型分布式数据库 4 大数据与分布式计算/分布式数据库（1+1=? ）经典商业应用场景的困境（一） OLTPOLTP（1+1=?）业务、数据大集中简单任务高并发响应时间敏感永远的痛：关系型数据库经典对策小型机数据库集群业务拆分迫切需求破除单点故障提升性能提升业务和数据规模）灵活的通讯模式简单任数据是瓶颈，复杂业务功能瓶颈务，高并发的痛经典对策（1+1=? 经典

2、商业应用场景的困境（二） OLTP会话型应用业务大集中、数据大集中会话数据需长期保存灵活的数据形式增删改查强调RASP，响应时间敏感关系型数据库是永远多机处理业务 CDN 多样性数据存储迫切需求丰富的会话语义丰富的数据存储形式弹性的业务、数据规模）业务大叠加高并发雪上加霜集中、数据大的痛经典对策并行/（1+1=? 经典商业应用场景的困境（三） OLTP分布式计算、大数据繁重单任务集中切分功能瓶颈、数据处理瓶颈简单任务，高并发增删改查强调RASP，响应时间敏感关系型数据库是永远多机计算多样性数据的多机存储 Hadoop、Spark、S

3、torm 迫切需求丰富的分布式语义大容量并行执行混杂海量数据的丰富检索分析语义、性能、伸缩性困境中的答案分布式计算分布式存储提升计算节点个数同一类任务由超过一个CPU完成摩尔定律“回归” 通过scale out解脱单一计算节点上无法从硬件无限突破的两大性能瓶颈：CPU和磁盘提升存储节点个数维持单位存储管理成本高可用高可靠弹高性性可能伸缩分布式分布式的直观分类个体任务的步骤并行流水线提升吞吐量两者并用如何分配工作？领导分配人人自主分配只要有备份，就有数据不一致恐怖的“时间窗口” “时间窗口”发生的各种错误的

4、自动识别、修复和遗留问题的清理安排尽可能多的人共同执行一个任务路由：谁能干负载均衡：谁比较闲再说什么是分布式分布式不是一种新技术应用框架，设计模式衍生的支撑技术路由、负载均衡、任务调度、并行计算、资源竞争、线程间/进程间/网络通讯，衍生的设计需求 RASP 多任务串行多任务并行提高请求/任务吞吐量、保持响应时间单任务串行单任务并行降低响应时间分布式的粒度：子系统，模块（函数、对象）性能与管理成本的权衡决定粒度应用把控理想的分布式应用架构长什么样？用工作流的形式来将步骤解耦并分布式 2 3 1 4 理想的分布式应用设计方法论应用角度主导的“

5、分而治之” 框架应用决定如何“分”和“治” 平台分布式应用开发态编程范式和API支撑 “分”：保持原状，任何粒度，任何层次整合 “治”：步骤连接的多样性最少的知识投资通用、底层、简单、轻量杜绝“分布式”设计框架运行时强大的运行容器，应用透明 “分”：任何粒度，规模无限 “治”：步骤连接任意顺序、任意整合多线程/进程/机器透明并发必杀技：强大的RASP 理想的分布式计算框架/平台该做什么？ “最高深的技术是那些令人无法察觉的技术，这些技术不停地把他们自己编织进日常生活，直到你无从发现为止”Mark Weiser 1 分布式的3W问题 2 3 服务型分布式计算基

6、于混搭存储引擎的融合型分布式数据库 4 大数据与分布式计算/分布式数据库服务型分布式计算分布式遇上SOA 服务服务化的开发方式分布式的步骤服务任何粒度的封装服务组装便捷对内对外服务统一分布式执行策略服务虚拟化，计算资源虚拟化自上而下、自内而外的全SOA 分布式从未如此简单不改变业务流程和编程模型单机单用户思路设计分布式应用服务型分布式计算的核心功能托翁法则数据/通讯协议全透明 Binary、JSON、XML、RAW Binary、HTTP、RTSP/RTP 应用透明，动态修改 C/S一键移动互联网灵活强大的编程模型全异步编程模型灵活的服务、通讯、内存语

7、义核心架构分布式虚拟机背板+刀片的架构基本内功 RASP：分布式系统居家必备灵活、准确的路由精准的负载均衡 Google发明、Hadoop落地、Storm/Spark升华并行编程框架，写分布式应用的“银弹” 合适的时间出现在合适的地方分布式计算和大数据的唯一方法论？ Hadoop、Spark、Storm：Map-Reduce的重要代言人分布式计算框架/平台 Map-Reduce为何物复杂任务并行的好方案通用、成熟、“廉价”的大数据方案唾手可得的“免费”方案不解决基础问题，非通用方案应用于各种场景是错误低门槛带来的各种坑生态圈整合成本高开源的不断重构和

8、发明说说Map-Reduce 不是分布式计算、大数据领域的万金油，也不是阿司匹林！伟大的创新服务型分布式计算 VS Map-Reduce Map-Reduce 逆向思维所有应用需要重构本末倒置简单粗暴的“分而治之” 执行的架构在设计时决定服务型分布式计算顺向思维应用角度设计分布式很少甚至不改造应用实现分布式业务流程主导的个性化分布式模型分布式策略通过配置而非编程服务型分布式计算 VS 请求级分布式架构服务型分布式计算应用角度设计分布式分布式的粒度是步骤，最大程度分布式全异步、流水线，计算资源用到极致各种数据生命周期和数据共享请求间各种通讯有状

9、态的对话请求级分布式架构针对 OLTP和会话应用的经典分布式架构分布式的粒度是请求单请求成本高粒度太大，请求隔离差，并发弱数据共享弱请求间不能高效率通讯不支持对话 1 分布式的3W问题 2 3 服务型分布式计算基于混搭存储引擎的融合型分布式数据库 4 大数据与分布式计算/分布式数据库分布式存储是一种分布式计算分布式计算分布式存储分布式计算分布式存储 DaaS 同样的方法论设计存储服务就是数据和数据访问个性化分布式应用先解决数据的分布（DB sharding，分布式文件系统）数据依赖路由分布式计算侠义数据库 VS 广义数据库分布式数据库是分布式存储方

10、法论和支撑技术的体现。分布式数据库应该汲取各种存储技术的精华，在不同场景选择最合适的存储技术，而不是一味破坏式创新。（分布式）数据库 VS （分布式）存储数字化 VS 数据化数据 VS 数据库 VS 存储数据是货物数据库将货物放进仓库有机存储管理。数据库是存储和管理数据的有效形式和方法论。冷热数据分离读写分离数据的垂直切分数据的水平切分（唯一能够彻底解决数据容量、吞吐量、延时的全面可伸缩）数据集中的经典应用架构配合低速系统永恒优化命题大数据时代更加严重数据库的老问题永远的瓶颈数据库的容量和处理能力数据库是永恒的焦点 I/O导致低速，竞争导致复杂

11、持续的瓶颈，持续的焦点数据库调优应用的合理设计合理的索引设计存储资源换计算和I/O资源 SQL优化内存数据库、缓存传统数据库集群方案传统数据库面临的新烦恼数据的维度和容量极大扩展数据维度频繁变化不支持新的数据类型数据容量有限数据维度有限维度修改成本高企常规分布式数据库方案解决数据库困境的通用方案解决老问题和新烦恼非定制的通用解决方案深度定制在特定场景下性能更好通用和专用的权衡妥协这个时代需要通用方案产品思维而非解决问题思维轻量的可轻松定制、二次开发、优化通用方案需要具备定制的机制结构化数据、非结构化数据、混合型数据 OLTP、OLAP、混

12、合型应用基于混搭存储引擎的融合型分布式数据库 TextText 核心指导思想应用（数据库）角度设计分布式数据的分布存储（sharding）充分利用水平伸缩的存储和计算资源创新润物细无声的分布式数据库分布式环境下支持全SQL语义扩展的SQL语义融合混搭存储引擎的Big Table 融合多存储引擎的优势将任何存储引擎分布式不是迁就，而是保护不同场景选择最合适的存储引擎整合多种存储引擎传统关系数据库的继承借鉴不应完全被否定有限范围内的强大单机处理能力灵活的SQL语义融合型分布式数据库融合型分布式数据库的定位分布式关系型数据库分布式 NoSQL数

13、据库分布式文件系统分布式内存数据库分布式缓存系统混搭型存储系统融合型分布式数据库的分布式架构服务型分布式计算的一个实例 DBaaS 按照单线程数据库设计主业务逻辑 (写/读）封装成服务多存储引擎串行读/写异步并行调用服务串行服务调用异步调用流水线特殊的分布式计算数据依赖路由根据数据分布策略选存储引擎写服务根据分布式索引选存储引擎读服务和传统数据库的功能区别和存储引擎解耦的数据库实现 K-V存储以外的所有功能分布式索引高效的分布式数据访问 Hashing的精准定位+范围查询最大程度发挥 “库内计算” 数据访问更复杂数据定位多存储引擎

14、的数据合并、过滤、统计、去重、排序等良好的数据水平分布策略路由算法的基础，性能和伸缩性的保证连续性唯一标识最大程度避免数据倾斜物理节点虚拟化应对大量不均衡删除分组一致性hashing自动识别新节点，避免数据迁移 Hashing重组进行整理融合型分布式数据库的RASP 分布式数据库独有的RASP 读写高性能数据分片最优执行计划读一份数据多个拷贝一份拷贝多个读服务实时步骤优化数据和服务的高可用数据的多重备份读数据的多个读服务写数据的多个写服务应用级的数据复制保证数据的业务完整性，异构存储引擎间数据同步数据规模和访问可伸缩数据分布

15、策略保证无数据倾斜数据和服务的高可靠可用性、稳定性强大的tracing和现场记录服务型分布式数据库的优势服务型分布式计算平台的传承数据/通讯协议全透明数据库的访问灵活一键变成开放平台服务的热插拔规模扩展异常轻松服务级的RASP 各种数据访问、二次过滤、二次整合、索引更新都是服务服务型分布式计算架构完全屏蔽分布在多节点的数据和服务带来的复杂性，轻松的实现分布式。我们发明车子不发明轮子融合型分布式数据库单机关系型数据库主从式数据库集群数据库一体机水平切分的关系型数据库集群类NoSQL 数据库 MPP数据库类HD

16、FS的分布式文件系统数据规模可伸缩性可以不可以不可以有限可以部分可以可以可以数据高可用读写无读写单点故障部分可以部分可以部分可以读写读写性能随节点数提升线性不能读非线性有限线性部分线性线性线性支持数据类型任意结构化结构化结构化结构化（非）结构化结构化非结构化支持业务场景各种OLTPOLTPOLTP/OLA P OLTPOLAPOLAP批处理支持全SQL能能能能部分部分能不能支持异构数据整合能不能不能不能不能不能不能不能总体拥有成本（ TCO）低低中等高低中等低高各种数据库方案对比服务型分布式计算+融合型分布式数据库 OLTP 展现层单一服务支持多种终端 UI和后台服务完全隔离业务层服务虚拟化基于配置的服务缓冲池数据访问层数据存储虚拟化基于配置选择合适的存储引擎和数据部署形式基于任何关系型数据库全面线性可伸缩服务和数据的RASP 会话型应用业务逻辑丰富的语义支持

展开阅读全文