电商行业数据运营建设实践讲解

上传人:最**** 文档编号:117171651 上传时间:2019-11-18 格式:PPTX 页数:24 大小:2.90MB
返回 下载 相关 举报
电商行业数据运营建设实践讲解_第1页
第1页 / 共24页
电商行业数据运营建设实践讲解_第2页
第2页 / 共24页
电商行业数据运营建设实践讲解_第3页
第3页 / 共24页
电商行业数据运营建设实践讲解_第4页
第4页 / 共24页
电商行业数据运营建设实践讲解_第5页
第5页 / 共24页
点击查看更多>>
资源描述

《电商行业数据运营建设实践讲解》由会员分享,可在线阅读,更多相关《电商行业数据运营建设实践讲解(24页珍藏版)》请在金锄头文库上搜索。

1、电商行业数据运营建设实践 提纲 一、对BI的思考 二、兰亭数据平台建设 三、大数据的高性能实现 四、高效的数据挖掘 五、BI的发展趋势 一、对BI的思考_定义 BI组成 DW OLAP DM 查询报 表 数据挖掘 BI功能 信息搜集 管理 分析 处理 BI目的 知识 (Knowledge) 洞察力 (Insight) 辅助做出决 策 一、对BI的思考_数据 采购 仓储 订单 物流 销退 客服 系统数据 渠道 注册 浏览 沟通 下单 回访 用户数据 BI 一、对BI的思考_协作 管理者 销售 财务 运营/设 计/推广 客服 物流/仓 储 一、对BI的思考_问题 响应较 慢 开发速率跟不上互联网变

2、化的节奏; 需求变化,又得根据流程重新开发; 灵活度不够 不能进行数据交互、自由组合; 不能二次分析; 无法支持大数据量 TB,PB级数据无法响应 一、对BI的思考_解决思路 快速响应 快速响应:实时数据仓库和准实时数据仓库; 需求变化:最快响应; 灵活多变 人与系统交互、维度自由组合; 多样的展现方式 基于云计算的大数据响应 海量数据处理:海量业务数据在线分析、云端部署 二、兰亭数据平台建设_架构 数据计算层 数据服务层 源数据层 MysqlOracle 文件数 据 日志 海量数据/离线计算: EMR/Hive/Spark数据挖掘 实时计 算: Kafka分布式消息系统 /Streaming

3、流式计算 线上服务:Mysql /Redis 集群/HBase 报表系统: Oracle主从 /Redshift 查询分析:Hive / 数据仓库/Kibana API/JDBC Web RPC 数据产品 应用层 统 一 调 度 、 监 控 、 权 限 控 制 二、兰亭数据平台建设 1、数据 模型分层:ODS, DW, DM, RPT 范围:流量、销售、运营三大数据模型及数据集市 推荐:个性化推荐数据、商品推荐数据 排序:根据能效值排序的数据 2、架构 调度:基于Quartz开发的调度系统; 监控:判断程序执行返回状态,记录 到日志表中,发送短信和邮件 报警; 权限控制:数据仓库访问权 限,申

4、请、审批和授权; 线上支持:MySQL,HBase通过API接口支持线上服务 二、兰亭数据平台建设 2、架构 数据收集:DataExp ,shell 脚本,Kafka分布式消息系统,快速低成本收集日志等; 抽取与转换 :存储和计算基于EMR/Hive/Spark/Oracle 存储:Oracle数据仓库 存储量级较 小的数据,Redshift存储量级大的数据 云存储:Amazon S3 Redis集群:支持实时 推荐等 3、应用 日常查询 :临时查询 ; 报表服务:报表以web展示,或者邮件形式发送给用户; 自助服务:支持用户自定义查询 ,并保存为报 表; 网站运营效果评估:响应时间 、各指标

5、用户数等; 流量分析:流量、点击率、转化率、跳出率等 推荐系统 搜索引擎 二、兰亭数据平台建设 统一调度系统:架构 Server Mysql Client AgentClient AgentClient Agent AWS EC2OracleHadoop Client Agent 其它 二、兰亭数据平台建设 调度系统:运维、管理、监控、依赖 二、兰亭数据平台建设 报表系统:维度分析、动态 展现、权限 元数据 RDS MySQL Amazon S3 二、兰亭数据平台建设 计算与存储:EMR + Hive EMR + Hive Oracle Redshift Mysql DataExp 二、兰亭数

6、据平台建设 应用 推荐服务商品排序运营数据 RESTful API 前端系统搜索引擎 CRM、其它系 统 Web Service 三、大数据的高性能实现 1、Oracle读写分离 一拖二 主库写,从库实时 复制 多从库用于查询 、统计 硬件加速:SSD盘加速 三、大数据的高性能实现 2、Redshift Amazon Redshift 是一种快速、完全托管的 PB 级数据仓库 解决方案; 列式存储; 数据压缩 ; 区域映射; MPP并行处理框架:在不停机的情况下实现扩 展 或收缩; 三、大数据的高性能实现 3、Logstash、 ElasticSearch、 Kibana Logstash:日

7、志进行收集、分析、过滤 ,并将其 存储供以后使用; ElasticSearch:全文搜索服务 Kibana:自定义搜索接口,页面展示 四、高效的数据挖掘 1、 Hadoop在数据挖掘中的问题 MP模式 vs复杂的机器学习算法 多次迭代问题 中间数据的处理 开发周期长 四、高效的数据挖掘 2、Spark RDD(Resilient Distributed Dataset) 内存计算:计算的中间结 果保存在内存中,不需要 读写HDFS; 快速迭代; DAG Scala 函数式编程(FP); Actor模型:基于线程和基于事件的Actor; 并发能力; 四、高效的数据挖掘 3、Spark架构 HDFSAmazon S3HBase 本地模式独立模式EC2MesosYarn MR Spark RDD FP SharkStreamingMllibGraphx 原始日志 Spark Redis/HBase 模型结 果Hive 混合计算 Hive表 四、高效的数据挖掘 4、兰亭推荐系统架构 推荐结果 用户访问 日志 四、高效的数据挖掘 5、基于用户行为的商品推荐 浏览购买购物车收藏 训练数据 展示 预测ctr 模型结果 五、BI的发展趋势 更加灵活的可定制商业智能; 更易用更人性化; 多样的展示方式; 移动BI; 云计算与云部署; 海量数据处理;

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号