物流大数据处理培训教材.ppt

上传人:F****n 文档编号:96127336 上传时间:2019-08-24 格式:PPT 页数:84 大小:9.55MB
返回 下载 相关 举报
物流大数据处理培训教材.ppt_第1页
第1页 / 共84页
物流大数据处理培训教材.ppt_第2页
第2页 / 共84页
物流大数据处理培训教材.ppt_第3页
第3页 / 共84页
物流大数据处理培训教材.ppt_第4页
第4页 / 共84页
物流大数据处理培训教材.ppt_第5页
第5页 / 共84页
点击查看更多>>
资源描述

《物流大数据处理培训教材.ppt》由会员分享,可在线阅读,更多相关《物流大数据处理培训教材.ppt(84页珍藏版)》请在金锄头文库上搜索。

1、物 流 大 数 据 处 理,物流,大数据,处理,采集,导入/预处理,统计/分析,挖掘,1,2,3,4,5,6,7,潘 果,淘宝数据分析挖掘实践及变革,百度大数据分析系统架构,京东大数据实时处理技术,物流大数据处理简介,1,2,3,4,目 录,【推荐】,用大数据能力找到商品之间的关系,【推荐】,用大数据能力找到商品之间的关系,你知晓大数据在哪些方面有应用?,3,1,3,2,架构化 1950-1970,数字化,1970-1990,网络化 1990-2010+,物联网 大数据 Something Big is Happening NOW,移动互联网 云计算,4,信息技术革命的小周期 智慧化,5,1:

2、1 Marketing,Nanotargeting和Retargeting,6,2,IBM IBM 2013,多渠道 交通控制 交易分析,智慧的医疗 国土安全 制造,金融 电信 欺诈和风险,日志分析 搜索质量 零售:流失、促销 Copyright 2011 Corporation,大数据在各行各业都可以获得应用,2,4, Copyright 2011 Corporation,IBM IBM 2013,获得突破性回报 了解关于客户的 一切,作 快速大量地创 新产品,和风险,利用工具化的 资产,利用大数据能力可以帮助企业获得突破性回报,利用大数据独有的 技术能力 可视化和发现,Hadoop 执行零

3、延迟的操,数据仓库 流计算,文本分析,整合和治理,多媒体内容,通过分析仸意 大数据类型 交易 / 应用数 据,机器数据,社交媒体数据 实时侦测欺诈,4,11,快,杂,大,大数据的新思维,13,多数据源的集成,浮动车GPS:20M/day,手机位置信息: 18M/day,居民调查: 80000户,视频/图像数据 和元数据: 100s of TB/day GIS数据,供水系统,智能电网,睡眠质量,出租车运营数据: 1M/day 交通卡:19M/day 高速路收费数据: 0.5M/day 社交网络 情感分析,部分数据来源:BeijingTOCC,12,大数据的新方法学 数据极大丰富前提下的新分析思维

4、和技术,采样数据 全集数据 多数据源的整合 基于主观因果假设 相关关系,大数据+小算法 +上下文+知识积累 描述性分析 预测性 和处方性分析 实时性 绝对的精确性,数据,数据中介 服务,生态系统,数据拥有者 大数据的,数据中介,数据技术公司 数据产品 和服务 16,大数据系统的设计权衡,大体量,基于采样的查询 实时性 流计算,批量计算 精确性,惰性数据的即席查询,Little data (个人计算) 19,城市计算,增量计算 内存计算,案例一: 大数据分析系统架构的搭建,百度的数据规模, 1001000PB 10100PB/天 千亿万亿 百亿千亿 十亿百亿/天 十亿百亿/天 100TB1PB/

5、天,数据总量 数据处理量 网页 索引 更新量 请求 日志,离线,在线,离线分析与在线实验相结合,快速迭代是互联网产品的 主要创新手段 算法A 算法B 算法B 通过反馈来验证算法优劣,搜索引擎的迭代,5%,5%,Online Learning A/B test 策略,机器学习 平台 FeatureTraining,数据 网页 网页库 倒排表 Data Mining,想法,原型,系统,快速开发,测试,产品,部署运维,开发框架,互联网产品的迭代 A/B测试,持续优化 数据智能,验证,数据分析,应用引擎 云测试,应用引擎,数据,架构 技术,互联网服务 enable 数据智能,IT产业生产力的变化,60

6、,70,80,90,00,10,硬件 Mainframe,软件 PC,Internet,Inf +人 +数据 Cloud,迭代的本质是让人参与系统进化, 而Big Data为迭代指导方向, Infrastructure则加速迭代。 软件 +人,互联网服务的典型技术特点,超大规模,快速迭代,数据智能,软件基础架构,大数据,数据中心、网络、服务器,数据中心计算,云计算技术体系,Disk,Flash,Pipe,K/V,File,Table,统一存储体系 平衡大容量、高并发、低延迟 不同访问模式通过组合满足 统一访问与传输,数据访问层,P2P,CDN,分布式存储,描述能力,数据流优化,控制流管理 资源

7、分配,优先级、并发控制 隔离、安全,执行层,模型层,Map,Reduce,表示层,SQL-like 翻译,Join,Select,Top,分布式计算,B C,D,A,实时存储与计算,kNN查询 平台,向量计算引擎,流式数据处理引擎,PubSub 引擎,机器学习 算法平台,OLAP 引擎,复杂事件处理引擎 分布式数据结构 超大规模数据仓库,图查询 平台,实时检索 平台,向量计算引擎,Vector,Layout,Map-,Shuffle,Operators/ Checkpoint,SIMDProgram,复杂事件处理,average(price) trigger(?,b,c) filter(b),

8、pattern(a-b-c),condition(func(a,b,c),流式计算模型 window,step,bound,time,M=Stream,目标, 1000PB 10亿维特征训练 100维条件查询 流式 触发式,海量 高维、多维 实时,更大、更复杂、更快!,数据智能,分布式 存储与计算,大规模人工 辅劣标注系统,人计算,向量引擎,Machine Learning 算法,Web Contents,流式处理,Logs,PubSub,推荐系统 智能交通,Apps 自劢评估,商业智能,决策辅劣,关于京东,营销 管理,供应商 管理,仓储 管理,财务 系统,客户 数据,网站 前台,关于京东 京

9、东拥有覆盖企业全部价值链的稳定系统,通过持续优化打造开放平 台,全面提升用户体验。,配送 管理,大规模数据处理更加容易,ETL/企业数据仓库 (Hive/Pig/MR),数据挖掘/建模,(R、Mahout),搜索和推荐,日志存储, ,“Next Click” 运营智能 风险控制 互动分析 ,一些场景需要进一步的考量,MapReduce批量处理 = 延迟较长 无法满足用户的实时需求 调度开销较大,大数据包括三部分,服务,模型 性能,大数据实时处理的思考, 模型, 海量数据, 数据量大 并发数高, 多个数据源整合, 预定义好的数据模型, 去规格化, 数据任务依赖关系简单 推和拉的问题, 拉比推好,

10、大数据实时处理的思考, 性能, 高并发需求 大容量需求, GBTB 级后台数据处理吞吐, 高速度需求, 从数据产生到处理完成结果延迟要求到秒级 计算需要在短时间内完成, 批处理预算 硬件支持, 内存、CPU、网络, 容错, 水平扩展,大数据实时处理的思考, ,关联获取价值,维度按需定制 互动分析、报表等完成价值交付 与其他在线生产系统进行数据对接(数据反哺) 计算即服务,大数据实时处理的思考 服务,生产数据库,企业数据仓库,大数据实时处理架构 财务数据集市,采销数据集市,罗盘数据集市,分析挖掘 数据集,数据 缓冲区,企业消息总线,流式计算集群,实时数据 同步,模型,日志系统,高速存取集群 在线

11、实时计算集群,持久 化,PUSH,PULL/PUSH,订阅,ELT,ELT,高速存取集群,ETL,报表应用,分析应用,推荐应用,.,数 据 推,送,中 心,近实时分析集群,近实时计算,实时计算 在线服务,离线计算,应用,分布式消息系统 缓存集群, ,日志(用户行为、) 批量同步 消息队列 , 开源技术, ,Flume Scribe Kafka ,大数据实时处理技术 数据传输, Apache项目:http:/kafka.apache.org/ 一个分布式的发布/订阅消息系统 术语, Topics, 消息分组, Brokers, 消息存储, Producers, 消息生产者, Consumers,

12、 消息消费者,Kafka, ,大数据实时处理技术 几个点,Sink,Agent,Agent,Storm等,Broker(Topic1),Broker(Topic2) HDFS,Zookeeper,解耦 缓冲 容错 透明 跨数据中心数据分发 Flume,Kafka, ,Hadoop HBase Cassandra MongoDB Redis , 数据库Sharding 合适的就是最好的,大数据实时处理技术 存储 大容量低速存储 高速存储 KV存储 开源NoSQL数据存储, ,可加计算、不可加计算 实时数据的实时计算 实时数据的计算 数据的实时计算, 开源计算框架 Storm Impala ,大数

13、据实时处理技术 计算,大数据实时分析,明细事实表,聚合表1,聚合表2,聚合表3, 基本概念 Streams(流), 元组序列 Spouts 流的源头 Bolts Functions, Filters, Joins, Aggregations Topologies 优点 可扩展、容错、易用, 在内存中执行,流式计算Storm Twitter开源的分布式处理框架,Spouts,Bolt,Topologies, Nimbus, 主控节点,用于任务分配,集群任务监控等, Zookeeper, 集群中协调,共有数据的存放(如心跳信息), Supervisor, 对应一台物理机,用于启动worker, W

14、orker, 工作进程,负责启动task,以及通过zeromq进行tuple的分发,与,接收。, Task, 工作线程,任务的处理,Storm的部署,Storm的应用模式,用户查询,大数据存储,数据视图集 (批处理),数据流,Hadoop,Storm,数据视图集 (实时处理) 数据流,数据视图集 (实时处理) 数据视图集 (实时处理),流式计算,流式计算,应用,事件收集器,Storm,前段展现, 事件驱动实现, 注意, 内存泄露 消息堆积, 算法模块拆分,流式计算, ,分析可视化 数据可视化 数据反哺 计算即服务, 仔细思考其价值, ,实时的统计:最流行 广告CTR预测 ETL:格式转换、重复值过滤、 运营需求:资源调派 ,大数据实时处理技术 服务和应用 价值展现, 对系统的压力, 数据量, 数据展现, 数据读写和传输, 解决方法, 前端和后端解耦, 缓存的应用, JS发挥前端的能力, 压缩 排队, 异步、非阻塞IO模型 线程池, 事件驱动, 后端更强劲, 数据库集群:分库、分表、分区 NoSQL数据库:Hbase、MongoDB等,数据应用的问题

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号