{管理信息化EAM资产管理}中国数据资产管理峰会唯品会大数据

上传人:卓****库 文档编号:140322990 上传时间:2020-07-28 格式:PPTX 页数:37 大小:1.97MB
返回 下载 相关 举报
{管理信息化EAM资产管理}中国数据资产管理峰会唯品会大数据_第1页
第1页 / 共37页
{管理信息化EAM资产管理}中国数据资产管理峰会唯品会大数据_第2页
第2页 / 共37页
{管理信息化EAM资产管理}中国数据资产管理峰会唯品会大数据_第3页
第3页 / 共37页
{管理信息化EAM资产管理}中国数据资产管理峰会唯品会大数据_第4页
第4页 / 共37页
{管理信息化EAM资产管理}中国数据资产管理峰会唯品会大数据_第5页
第5页 / 共37页
点击查看更多>>
资源描述

《{管理信息化EAM资产管理}中国数据资产管理峰会唯品会大数据》由会员分享,可在线阅读,更多相关《{管理信息化EAM资产管理}中国数据资产管理峰会唯品会大数据(37页珍藏版)》请在金锄头文库上搜索。

1、唯品会大数据实践,CONTENT 目录,关于唯品会,01,数据平台建设,02,大数据应用建设,03,一些想法,04,数据平台实践 离线计算分析平台演化 实时计算平台演化 一些技术选型和经验 数据应用实践 系统开发和运营 业务和产品运营 恶意用户识别/风控系统 商品品牌推荐 个性化排序,| 产品,| 系统,| 算法,数据仪表盘 、数据魔方、比价系统、地图服务等,精准推荐,基础算法库,选品、分仓与预调拨,数据实时接入,离线计算平台,实时计算平台VRC,资源管理平台,运维,监控,测试,| 数据,细分人群,用户Lookalike,唯品会用户画像,唯品会大数据 VIP Big Data,整体规划,平台服

2、务,数据服务,数坊 分析师平台,对外服务,VRC 开发者平台,画像计算,VRE,Sqoop/VDP/Flume/Kafka,Job调度/Yarn调度,运维,监控,测试,数据产品,自助 报表平台,应用,产品 服务,接入,计算,存储,调度,系统-大数据基础平台规划,自助 取数平台,数据平台的建设,离线计算分析平台选建设 混合平台:Hadoop+Greenplum 迁移策略和计划 daily job, hourly job, min job 扩容,扩容,扩容 离线和实时的混合 开放平台 实时计算平台的建设 Binlog2Kafka VDP MySQL2Kafka Spark vs Storm Red

3、is Challenge 稳定性挑战 开放平台 碰到的问题,离线平台的演化-1,2012 年底:CDC调度+GP10节点 系统稳定 2013 Q1:CDC调度+ETL Gp + Query Gp, Tuning 2013 Q2: 自有调度平台开发 + 自有抽取系统+ Hadoop 流量开始迁移 + GP交易数据 + Query GP 2013 Q3: 自有调度平台+抽取迁移 Hadoop流量迁移结束(70), 交易数据迁移开始 GP交易数据+Query GP 核心数据小时级ETL 2013 Q4 元数据管理系统,数据质量工具 ETL Gp完整迁移开始 Query GP扩容40节点 2014 Q

4、1 全部ETLHadoop 200 nodes cluster + 40 Ad-Hoc EDW Hybrid node configuration,离线混合平台-2,Referene: Netflex, LinkedIn, eBay GreenPlum + Hadoop 保护现有投资 Hadoop 海量数据分析 ETL复杂计算 权限打通 Greenplum: GP擅长adhoc query速度快, 分析师适应 不足够scalable 长期成本 Hadoop Massive scalable,但是单个查询慢 海量ETL计算 Web查询,离线开放平台-3,开放平台 自助ETL开发 自助报表开发和展

5、现 自助取数分析 成本breakdown, change back 性能,实时,扩展性,成本 Presto Druid,实时计算系统架构,VRC,模型训练平台,Flume/VDP/VMS,VRE,应用开发: 任务配置 可视化编程 Esper EPL 平台组件: 输入组件 输出组件 UDF VRC Portal: 任务发布 日志查看 监控告警,Rule Layer,Hbase vs Redis,背景: 个性化user profile, high QPS, very time sensitive 用户信用体系user profile ,low QPS, non-critical 用户实时浏览,订单

6、历史,high tps, high qps 都是海量数据 看上去Hbase更加合适, 但是不放心 选择: Critical 的Redis Non-critical 的Hbase 积累经验,逐渐往Hbase dual write 其实Hbase也不便宜,就是scale不动系统 Redis某种程度上也可以实现,21:07:56,11,Redis,Storm计算用redis保存中间和结果数据 流量一直增加 大促流量狂涨 计算复杂度一直增加 不停拆分。 每次改代码 怎么办? 逐个模块拆分 一开始就按模块写不同instance 一开始就Shard Twemproxy 优化数据结构 Pipeline/Ba

7、tch 不求100%准确hll log Redis Cluster,21:07:56,12,Challange,实时计算作为平台 离线和实时的融合 离线向实时的迁移成本,应用实践,业务应用 运营分析 帮助公司买 帮助公司卖 技术开发和运营 Telescope 业务监控(storm) Logview/Titan 服务监控(spark) Application logging(Spark) CDN日志分析 (Hive) Site speed分析(storm) 安全审计分析(impala/storm),大数据对于技术运营,21:07:56,15,实时业务监控,7,现有平台,访问地址:,商品展示 登录

8、注册 订单信息 代金券信息 支付模块,商品展示 购物车 登录注册 订单信息 代金券信息 支付模块,FDS 探索号 CDN Nginx域,B2C,移动端,用户增加数 移动端下单数 整体下单数 订单总金额 购物车增加数 购物车内货品数量,业务集合 域流量集合,登录热力地图 注册热力地图 订单热力地图 购物车访问热力地图,日志数据,WTW,HeatMap,大屏幕,21:07:56,16,实时页面加载时间监控,实时PV分布监控,商业CDN质量分析,App Service Quality,Spark Streaming, 30 sec mini-batch 进去可以看到每个pool,每个服务器,每个ur

9、l的请求次数,响应时间,错误率,在过去两周的各个维度的统计数据和曲线; 可以看到pool之间的互相调用关系, 调用量 全无入侵,应用上线即插即用;,Data Service Quality,大数据在唯品会特卖模式的业务价值,大数据对于数据化运营,21:07:56,24,应用于唯品会,全面客户关系管理,数据化运营-数据产品,对外: 供应商:数据魔方 对内: 高管:手机数据仪表盘,经营分析 商务:选品,比价 物流:分仓,预调拨 产品/运营:指导产品分析和决策,经营分析,效果评估,产品优化 金融:供应商贷款, 消费者:个性化推荐,唯品白条 营销:个性化EDM,个性化Push,CRM 业务安全:风控,

10、数据 仪表盘,数据 魔方,比价系统,产品-数据产品及服务,PC用户,移动用户,Adapter,Adapter,算法模型1,算法模型2,算法模型3,算法模型4,stockd,bmsd,Flume-kafka,Binlog-kafka,Storm/C+,Profile redis,Item redis,Training Data,Business Rule,EP,Debug Platform,hadoop,21:07:56,27,系统架构,挑战,用户 数据稀疏,有效反馈少 长尾严重 用户体验,50ms返回 ITEM 冷启动 特征难抽取,比如图片素材 场景 缺少上下文 没有明显意图,不同于“搜索”,

11、28,底层数据,品牌 历史和实时销售数据 价格,品类,颜色尺码风格,季节 品牌相似性 商品 商品profile的长期开发 历史和实时商品信息(库存,销售,转化) 用户 用户点击浏览,购物车,购买,收藏行为 按品类,风格,价位,性别,尺码 用户实时行为路径,21:07:56,29,我们走过的路,21:07:56,30,2013Q4-2014Q1:基于人群分组和人工排序的个性化运营尝试 人群划分 首页人工排序 列表页人工规则自动排序 无效果。 2014Q2:开始有机会在小流量新版首页尝试技术主导 机器学习+业务规则 首页动态生成个性化推荐模块 首页动态生成个性化排序页面 提高了首页到列表页转化率,

12、降低了跳出率,提高了销售,我们走过的路,2014 Q3-Now: 首页和列表页的个性化排序 机器学习train model Hadoop 生成 user profile/brand profile Storm 计算实时转化销售数据,用户实时行为和意图 实时排序首页和列表页 下一步 更多引入个性化因子(feature) 细化user/brand profile ,更多数据 引入更多其他算法,做到算法可以灵活替代 不但个性化排序和推荐,还可以有更多,21:07:56,31,个性化推荐下一个阶段,实时,实时,再实时 实时计算商品品牌信息,用户profile 实时推荐 实时算法迭代更新 实时Abtes

13、t verify 个性化,个性化,个性化 移动天然是个个性化的好场所 更多的个性化因子 更加全面的数据:用户画像建设,曝光数据的收集,个性化阶段性成果,PC端 推荐: 10%12% PC销售占比 首页个性化排序 4%销售金额提升 移动端(2014/12) 首页个性化排序 4%销售金额提升 列表页排序优化 15%销售金额提升 Overall: 17%,21:07:56,33,推荐关键点,34,解决之道,35,一些小结,技术选型: 业界标准best practice 成熟技术: 技术本身的成熟度,和我们队这个技术的把控力 reference customer/implementation 用最合适的技术,而不是最先进的技术 Dont reinvent the wheel 框架 算法 基础架构/数据很重要 模块化 通用化 Things Change 半年前不用,可能现在用; Spark,Hbase,21:07:56,36,THANK YOU,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 企业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号