淘宝大数据量产品技术架构33精编版

上传人:ahu****ng1 文档编号:144689480 上传时间:2020-09-13 格式:PPTX 页数:34 大小:994.39KB
返回 下载 相关 举报
淘宝大数据量产品技术架构33精编版_第1页
第1页 / 共34页
淘宝大数据量产品技术架构33精编版_第2页
第2页 / 共34页
淘宝大数据量产品技术架构33精编版_第3页
第3页 / 共34页
淘宝大数据量产品技术架构33精编版_第4页
第4页 / 共34页
淘宝大数据量产品技术架构33精编版_第5页
第5页 / 共34页
点击查看更多>>
资源描述

《淘宝大数据量产品技术架构33精编版》由会员分享,可在线阅读,更多相关《淘宝大数据量产品技术架构33精编版(34页珍藏版)》请在金锄头文库上搜索。

1、淘宝大数据量产品技术架构,张轩丞(朋春) 淘宝网-数据平台与产品部,关于,张轩丞(朋春) 淘宝数据平台与产品部(杭州) vi党,脚本语言爱好者 关注NodeJS,cnode社区组织者之一 :我是aleafs,数据平台与产品,淘宝网 淘宝卖家 供应商 消费者,搜索、浏览、收藏、交易、评价.,一些数字,淘宝主站: 30亿店铺、宝贝浏览 10亿计的在线宝贝数 千万量级交易笔数,数据产品: 50G统计汇总结果 千万量级数据查询请求 平均20.8ms的响应时间(6月1日),海量数据带来的挑战,计算 计算的速度 处理吞吐量 存储 存储是为了更方便地查询 硬盘、内存的成本 查询 “大海捞针” 全“表”扫描,

2、架构总览,今天的话题,关系型数据库仍然是王道 NoSQL是SQL的有益补充 用中间层隔离前后端 缓存是系统化的工程,关系型数据库仍然是王道,关系型数据库,有成熟稳定的开源产品 SQL有较强的表达能力 只存储中间状态的数据 查询时过滤、计算、排序 数据产品的本质 拉关系 做计算,SELECT IF(INSTR(f.keyword, ) 0, UPPER(TRIM(f.keyword), CONCAT(b.brand_name, ,UPPER(TRIM(f.keyword) AS f0, SUM(f.search_num) AS f1, ROUND(SUM(f.search_num) / SUM(

3、f.uv), 2) AS f3, ROUND(AVG(f.uv),2) AS f4 FROM dm_fact_keyword_brand_d f INNER JOIN dim_brand b ON f.keyword_brand_id = b.brand_id WHERE f.keyword_type_id = 1 AND f.keyword != AND keyword_cat_id IN (50002535) AND thedate = 2011-07-07 GROUP BY f0 ORDER BY SUM(f.search_num) DESC LIMIT 0, 100,存储在DB中的数据

4、,分布式MySQL集群,字段+条目数分片 MyISAM引擎 离线批量装载 跨机房互备,MyFOX,透明的集群中间层MyFOX,透明查询 基于NodeJS,1200QPS 数据装载 路由计算 数据装入 一致性校验 集群管理 配置信息维护 监控报警,MyFOX-数据查询,缓存,MyFOX-节点结构,MyFOX,热节点(MySQL),15k SAS盘,300G * 12,raid10 内存:24G 成本:4.5W / T,新增热数据,小结,根据业务特点分库分表 冷热数据分离 降低成本,好钢用在刀刃上 更有效地使用内存,SQL虽牛,但是,NoSQL是SQL的有益补充,全属性交叉运算,不同类目的商品有不

5、同的属性 同一商品的属性对有很多 用户查询所选择的属性对不确定,Prometheus 定制化的存储 实时计算,Prom数据装载,Prom,Prom数据查询,Prom数据冗余,明细数据大量冗余 牺牲磁盘容量,以得到: 避免明细数据网络传输 变大量随机读为顺序读,小结,NoSQL是SQL的有益补充 “预算”与“现算”的权衡 “本地”与“集中”的协同,其他的数据来源,Prom的其他应用(淘词、指数等) 从isearch获取实时的店铺、商品描述 从主站搜索获取实时的商品数 ,异构数据源如何整合统一?,用中间层隔离前后端,pengchun$ tail /logs/glider-rt2.log 127.0

6、.0.1 14/Jun/2011:14:54:29 +0800 GET /glider/db/brand/brandinfo_d/get_hot_brand_top/where HTTP/1.1 200 17 0.065,数据中间层Glider,多数据源整合 UNION JOIN 输出格式化 PERCENT / RANK OVER JSON输出,Glider架构,Dispatcher,Controller,配置解析,请求解析,一级缓存 action,缓存是系统化的工程,缓存系统,前端产品,一级缓存,小结,用中间层隔离前后端 底层架构对前端透明 水平可扩展性 缓存是把双刃剑 降低后端存储压力 数

7、据一致性问题 缓存穿透与失效,回顾,关系型数据库仍然是王道 分库分表、冷热分离 NoSQL是SQL的有益补充 用冗余避免网络传输和随机读 用中间层隔离前后端 异构数据源的整合 缓存是系统化的工程 数据一致性、穿透与雪崩,矛盾之美,谢谢,1、有时候读书是一种巧妙地避开思考的方法。20.9.1320.9.13Sunday, September 13, 2020 2、阅读一切好书如同和过去最杰出的人谈话。04:29:1704:29:1704:299/13/2020 4:29:17 AM 3、越是没有本领的就越加自命不凡。20.9.1304:29:1704:29Sep-2013-Sep-20 4、越是

8、无能的人,越喜欢挑剔别人的错儿。04:29:1704:29:1704:29Sunday, September 13, 2020 5、知人者智,自知者明。胜人者有力,自胜者强。20.9.1320.9.1304:29:1704:29:17September 13, 2020 6、意志坚强的人能把世界放在手中像泥块一样任意揉捏。2020年9月13日星期日上午4时29分17秒04:29:1720.9.13 7、最具挑战性的挑战莫过于提升自我。2020年9月上午4时29分20.9.1304:29September 13, 2020 8、业余生活要有意义,不要越轨。2020年9月13日星期日4时29分17

9、秒04:29:1713 September 2020 9、一个人即使已登上顶峰,也仍要自强不息。上午4时29分17秒上午4时29分04:29:1720.9.13 10、你要做多大的事情,就该承受多大的压力。9/13/2020 4:29:17 AM04:29:172020/9/13 11、自己要先看得起自己,别人才会看得起你。9/13/2020 4:29 AM9/13/2020 4:29 AM20.9.1320.9.13 12、这一秒不放弃,下一秒就会有希望。13-Sep-2013 September 202020.9.13 13、无论才能知识多么卓著,如果缺乏热情,则无异纸上画饼充饥,无补于事。Sunday, September 13, 202013-Sep-2020.9.13 14、我只是自己不放过自己而已,现在我不会再逼自己眷恋了。20.9.1304:29:1713 September 202004:29,谢谢大家,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号