电商行业数据运营建设实践讲解

资源描述

《电商行业数据运营建设实践讲解》由会员分享，可在线阅读，更多相关《电商行业数据运营建设实践讲解（24页珍藏版）》请在金锄头文库上搜索。

1、电商行业数据运营建设实践提纲一、对BI的思考二、兰亭数据平台建设三、大数据的高性能实现四、高效的数据挖掘五、BI的发展趋势一、对BI的思考_定义 BI组成 DW OLAP DM 查询报表数据挖掘 BI功能信息搜集管理分析处理 BI目的知识 (Knowledge) 洞察力 (Insight) 辅助做出决策一、对BI的思考_数据采购仓储订单物流销退客服系统数据渠道注册浏览沟通下单回访用户数据 BI 一、对BI的思考_协作管理者销售财务运营/设计/推广客服物流/仓储一、对BI的思考_问题响应较慢开发速率跟不上互联网变

2、化的节奏；需求变化，又得根据流程重新开发；灵活度不够不能进行数据交互、自由组合；不能二次分析；无法支持大数据量 TB,PB级数据无法响应一、对BI的思考_解决思路快速响应快速响应：实时数据仓库和准实时数据仓库；需求变化：最快响应；灵活多变人与系统交互、维度自由组合；多样的展现方式基于云计算的大数据响应海量数据处理：海量业务数据在线分析、云端部署二、兰亭数据平台建设_架构数据计算层数据服务层源数据层 MysqlOracle 文件数据日志海量数据/离线计算: EMR/Hive/Spark数据挖掘实时计算： Kafka分布式消息系统 /Streaming

3、流式计算线上服务：Mysql /Redis 集群/HBase 报表系统： Oracle主从 /Redshift 查询分析：Hive / 数据仓库/Kibana API/JDBC Web RPC 数据产品应用层统一调度、监控、权限控制二、兰亭数据平台建设 1、数据模型分层：ODS, DW, DM, RPT 范围：流量、销售、运营三大数据模型及数据集市推荐：个性化推荐数据、商品推荐数据排序：根据能效值排序的数据 2、架构调度：基于Quartz开发的调度系统；监控：判断程序执行返回状态，记录到日志表中，发送短信和邮件报警；权限控制：数据仓库访问权限，申

4、请、审批和授权；线上支持：MySQL，HBase通过API接口支持线上服务二、兰亭数据平台建设 2、架构数据收集：DataExp ,shell 脚本，Kafka分布式消息系统，快速低成本收集日志等；抽取与转换：存储和计算基于EMR/Hive/Spark/Oracle 存储：Oracle数据仓库存储量级较小的数据，Redshift存储量级大的数据云存储：Amazon S3 Redis集群：支持实时推荐等 3、应用日常查询：临时查询；报表服务：报表以web展示，或者邮件形式发送给用户；自助服务：支持用户自定义查询，并保存为报表；网站运营效果评估：响应时间、各指标

5、用户数等；流量分析：流量、点击率、转化率、跳出率等推荐系统搜索引擎二、兰亭数据平台建设统一调度系统：架构 Server Mysql Client AgentClient AgentClient Agent AWS EC2OracleHadoop Client Agent 其它二、兰亭数据平台建设调度系统：运维、管理、监控、依赖二、兰亭数据平台建设报表系统：维度分析、动态展现、权限元数据 RDS MySQL Amazon S3 二、兰亭数据平台建设计算与存储：EMR + Hive EMR + Hive Oracle Redshift Mysql DataExp 二、兰亭数

6、据平台建设应用推荐服务商品排序运营数据 RESTful API 前端系统搜索引擎 CRM、其它系统 Web Service 三、大数据的高性能实现 1、Oracle读写分离一拖二主库写，从库实时复制多从库用于查询、统计硬件加速：SSD盘加速三、大数据的高性能实现 2、Redshift Amazon Redshift 是一种快速、完全托管的 PB 级数据仓库解决方案; 列式存储；数据压缩；区域映射； MPP并行处理框架:在不停机的情况下实现扩展或收缩；三、大数据的高性能实现 3、Logstash、 ElasticSearch、 Kibana Logstash:日

7、志进行收集、分析、过滤，并将其存储供以后使用; ElasticSearch:全文搜索服务 Kibana:自定义搜索接口，页面展示四、高效的数据挖掘 1、 Hadoop在数据挖掘中的问题 MP模式 vs复杂的机器学习算法多次迭代问题中间数据的处理开发周期长四、高效的数据挖掘 2、Spark RDD（Resilient Distributed Dataset）内存计算:计算的中间结果保存在内存中，不需要读写HDFS；快速迭代； DAG Scala 函数式编程（FP）； Actor模型：基于线程和基于事件的Actor; 并发能力；四、高效的数据挖掘 3、Spark架构 HDFSAmazon S3HBase 本地模式独立模式EC2MesosYarn MR Spark RDD FP SharkStreamingMllibGraphx 原始日志 Spark Redis/HBase 模型结果Hive 混合计算 Hive表四、高效的数据挖掘 4、兰亭推荐系统架构推荐结果用户访问日志四、高效的数据挖掘 5、基于用户行为的商品推荐浏览购买购物车收藏训练数据展示预测ctr 模型结果五、BI的发展趋势更加灵活的可定制商业智能；更易用更人性化；多样的展示方式；移动BI；云计算与云部署；海量数据处理；

展开阅读全文