大数据-滴滴业务实时监控系统架构与实践

资源描述

《大数据-滴滴业务实时监控系统架构与实践》由会员分享，可在线阅读，更多相关《大数据-滴滴业务实时监控系统架构与实践（28页珍藏版）》请在金锄头文库上搜索。

1、滴滴业务实时监控系统架构及实践艾毅 2016/12 议程滴滴实时监控系统演变历程当前架构及服务介绍系统优化方向滴滴实时监控系统演变历程预计算 2015年之前年之前2015年至今年至今瓶颈：计算、存储成本指数级增长不易扩展优势：实时分析海量数据（秒级） OLAP系统交互式查询挑挑战战解决方解决方案案快速满足业务需求业务数据库分库、分表数据、维度、指标越来越多议程滴滴实时监控系统演变历程当前架构及服务介绍系统优化方向滴滴实时监控系统当前架构概览 Mysql BinlogCanal Server Kafka Cluster 1 Text LogFlum

2、e Agent APIPython Daemon Samza Unified ETL Job Kafka Cluster 2 Raw data 通用业务 Json data 数据分析数据格式转换数据去重 Samza Metrics Computing Druid Kafka Real-time Indexer HDFS Samza HDFS Producer Druid HDFS Batch Indexer Online Machine Learning Druid Broker API基于指标的语义化API APP：监控报警、热力图当前系统架构特点高可用易扩展高性能支持有状态的

3、实时计算为何选用Kafka？ Kafka 是一个高性能、高可用、易扩展的分布式日志系统将整个数据处理流程解耦将整个数据处理流程解耦为何选用Druid？ Druid是针对时间序列数据提供低延时的数据写入以及快速交互式查询的的分布式OLAP数据库 Druid的数据存储方式为OLAP查询优化过的列式存储结构：Segment Segment中存储聚合计算后的统计结果主要根据时间对Segment文件进行分片存储 Segment包含的三种列类型时间时间戳列戳列作为数据分发、存储、查询的依据维度列维度列支持过滤和分组使用字典编码压缩使用BitMap索引压缩指标列指标列用来聚合计

4、算使用LZ4压缩 Druid的数据处理流程介绍 Druid节点外部依赖实时流数据离线数据客户端请求 Segements 查询元数据缓存缓存 Lambda架构 Druid Kafka Indexing Service介绍 Overlord Middle Managers Middle Manager 1 Middle Manager 2 Middle Manager 3 Kafka Partition 0 Partition 1 Topic 1 Partition 0 Partition 1 Topic 2 Kafka中每个Partiton的消息是严格有序、追加写入、不可改变的

5、可“回退”到任意的Partition- offset重新消费数据实现Exactly-Once的实时计算控制流数据流 Druid支持近似统计算法为什么要使用近似算法？为什么要使用近似算法？计算速度快误差可控显著降低计算、存储需求 Druid是如何实现近似算法的？是如何实现近似算法的？基于Yahoo开发的 datasketches 库使用Theta Sketch近似算法支持集合操作（并集、交集、差集） Druid支持地理查询矩形查找圆形查找任意多边形查找滴滴贡献给了社区包含在Druid 0.9.2版本滴滴实时订单热力图为何选用Samza？ Samza是一个分布

6、式的实时计算框架；支持低延时的、有状态的实时计算 Samza运行机制介绍 Node Manager Samza job Container 1 Host 1 Samza Job on YARN YARN AM Node Manager Samza job Container 2 Host 2 YARN AM Node Manager MR job Container 1 Host 1 Map Reduce Job on YARN YARN AM Node Manager MR job Container 2 Host 2 YARN AM Samza Job可看作一个实时计算版的Map/Red

7、uce Job VS Samza数据处理流程介绍输入流 Partition 0Partition 1Partition 2 Task 0 Task 1 Task 2 Checkpoint Stream输出流Changelog Stream Container 1Container 2 本地状态存储 (RocksDB) job Samza的高可用性不会出现“雪崩” 不会丢失数据缓存队列：基于磁盘，不受内存限制 YARN为Samza Job提供了容错机制 Log AKafkaLog BLog CLog D SamzaJob 1 Job 2YARN Samza常见计算类型处理单条信息处理单条

8、信息 Filter: 根据特定条件筛选匹配的记录 Map: Log= f(Log) 处理多条信息处理多条信息 Join: 对多个数据流做关联计算 Group:对记录进行分组 Aggregate: 对处于相同Group的数据进行聚合计算需要状态管理 Samza实现有状态的实时计算基于过去的数据状态来处理当前的数据：本质是数据缓存机制 Samza基于RocksDB实现本地状态存储大数据实时计算场景下移动数据，离计算资源近一点 DB DB Query Task1Task2Task3 DB DBDBDB 输入流 Change log Task1Task2Task3 输入流滴滴实时监控可视化界

9、面监控覆盖滴滴全部核心业务线滴滴业务智能预警系统基于Holt-Winters时间序列分析模型 Holt-Winters时间序列分析模型介绍议程滴滴实时监控系统演变历程当前架构及服务介绍系统优化方向 Lambda架构的问题同样的业务逻辑需要维护实时和离线计算两套代码重新处理数据只能依赖离线计算，计算较慢优化方向实现“端到端”的Exactly-Once实时数据处理，不再需要离线修正 Samza Local Cache 智能感知Kafka Partiton变化 Druid Kafka Indexing Service 数据的重新处理机制： Kappa : 新起一个实时计算任务，新旧任务并行处理 Liquid ：停止当前实时计算任务，修改Offset后，重启任务 THANK YOU 北京嘀嘀无限科技发展有限公司北京市海淀区东北旺路8号院尚东数字山谷B2号楼

展开阅读全文