知乎大数据平台架构实践

上传人:I*** 文档编号:148921639 上传时间:2020-10-23 格式:PPTX 页数:71 大小:1.30MB
返回 下载 相关 举报
知乎大数据平台架构实践_第1页
第1页 / 共71页
知乎大数据平台架构实践_第2页
第2页 / 共71页
知乎大数据平台架构实践_第3页
第3页 / 共71页
知乎大数据平台架构实践_第4页
第4页 / 共71页
知乎大数据平台架构实践_第5页
第5页 / 共71页
点击查看更多>>
资源描述

《知乎大数据平台架构实践》由会员分享,可在线阅读,更多相关《知乎大数据平台架构实践(71页珍藏版)》请在金锄头文库上搜索。

1、,知乎大数据平台架构实践,技术创新,变革未来,大纲,1. 数据平台架构,数据可视化 Demo 更多实际应用,架构,数据平台整体架构,平台架构,App,传输层,计算层,Web,后端日志,数据库,微信小程序,接收层,Kafka,Druid,Spark,Hadoop,Hive,Log Server,存储层,HDFS,Redis,Kudu,Maxwell,应用层,可视化分析平台,数据仓库,应用监控平台,A/B Testing,业务系统,依赖和调度,元信息管理,埋点发版流程 管理和测试,权限管理,数据源,HBase,渠道管理平台,埋点,埋点,埋点发版流程 管理和测试,埋点流程,产品经理提出埋点需求 数据

2、分析师写埋点文档 交付工程师开发 埋点回归测试 客户端发版,埋点标准化规范,使用 Protobuf 做埋点标准化,埋点 SDK 与平台,Web WechatApp,Android,iOS,后端服务,JS SDK,Java SDK,Objective-C SDK,Python/Java SDK,Protobuf 的优点,1. 埋点工程师不容易写错 2.修改提 Code Review 3.统命名管理 4.序列化数据的平台无关性 5.传输体积小,省流量 6.支持多语言, 向后兼容,埋点核心思想,lDlnfo,Clientlnfo,Timelnfo,Networklnfo,Action,Url,Ele

3、ment,Module,Name,Extralnfo,Who / App 卡顿信息 optional AppPerformanceBlockInfo app_performance_block = 8; ,接收层,日志接收,Log Server,消息监盺,Maxwell,日志接收,接收 Protobuf、Json 和 String 类型格式数据 数据写入 Kafka 写入 Kafka 失败时存入本地 Leveldb 发送队列健康时,发送 Leveldb 数据到 Kafka,消息监盺,使用 Maxwell 接 Mysql Binlog 写 Kafka,计算层,计算层,数据流式图,Kafka,Sp

4、ark,HDFS,Druid,Kafka,Kudu,Mysql,Spark,Kafka,Impala,Sqoop,Hive,数据批处理,批处理,数据批处理,自研批处理系统,读 Kafka 写 HDFS 读 HDFS 写 HDFS Sqoop 批量导出 Mysql 数据到 Hive 读 HDFS 写 Druid,数据实时处理,实时处理,数据实时处理,Spark Streaming ETL 写 Kafka,实时 ETL,IP 地址解析 UserAgent 解析 业务数据分流,数据实时导入 Druid,Tranquility 消费 Kafka 写 Druid,实时导入 Kudu,Spark Stre

5、aming 消费 Kafka 写 Kudu,查询层,查询层,重度使用 Druid,Druid Hive Impala,查询缓存与数据版本,对多维分析和留存分析 Query 按时间拆分 Query 结果按时间拆分后写入缓存 数据源重导后对应时间范围的缓存自动失效 检查缓存版本,只有数据未变动的查缓存,Mysql 数据实时 OLAP,Mysql 数据实时 OLAP,Mysql 数据实时 OLAP,2016.08 - 2017.07 Impala + Kudu 优点:查询速度快,实时性高 缺点:表结构变更后需要重导 2017.08 - 未来 TiSpark 7 月底 PingCAP 推出 TiSpa

6、rk,开始测试 TiSpark 性能,行业痛点,大数据的实时 OLAP,非固化需求 自定义多维分析 自定义留存分析,数据可视化 Demo,数据可视化 Demo,可视化分析平台,APMCon 2017 数据分析,数据源导入 自定义多维分析查询 自定义留存分析,通用可视化分析平台 Demo,Hive 数据导入平台,数据导入- hive demo,数据源前置检查,导入数据源 Workflow 的前置检查,自定义指标创建,创建指标,导入后的数据源指标列表,创建更多指标,创建指标 Demo,强大的过滤器,创建多维分析报表,创建多维分析报表,创建留存报表,创建留存报表,通用可视化留存分析,留存筛选,8.1

7、0 盺过 CDN 的人在 8.11 又盺了知乎的有多少人?,更多实际应用,更多实际应用,应用监控平台,应用监控平台,应用监控平台-指标与维度,页面加载时长 App 启动时长 系统性能 App 流量统计 页面卡顿信息,平台 系统版本 应用版本 机型 运营商 网络类型,业务后端对接,业务后端对接,业务后端对接,Growth,Growth,流量来源 客户端新增识别 渠道管理后台,流量来源,流量来源,Web 端流量来源,自然流量来源 搜索引擎流量 社交流量 直接流量 付费流量来源 使用人工 utm 标记,客户端流量来源,被 Scheme 或 Universal Link 唤醒的App,在启动时上 报唤醒链接,数据平台组抽取链接中的 UTM 作为当前 日志 UTM,会话切割后即可得到客户端流量来源,A/B Testing,A/B Testing,实验系统,配置下发 客户端生效后上报 数据可视化,A/B Testing, ,掚, ,掚俒畎,-JWF ,歏 2,湱 ,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > IT计算机/网络 > 云计算/并行计算

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号